小米也发了一篇解释XLA的文章之所以叫XLA而不是VLA,是因为原生多

桐瑞夜谈汽车啊 2026-04-10 01:20:44

小米也发了一篇解释 XLA 的文章

之所以叫 XLA 而不是 VLA,是因为原生多模态输入,不只是 V 的视觉。

同样也不输出 CoT,因为逻辑推理不一定要用语言来体现,而且输出文本浪费时间,这也是俺一直说的,符合更多共识的做法。

0 阅读:0
桐瑞夜谈汽车啊

桐瑞夜谈汽车啊

感谢大家的关注