小米也发了一篇解释 XLA 的文章
之所以叫 XLA 而不是 VLA,是因为原生多模态输入,不只是 V 的视觉。
同样也不输出 CoT,因为逻辑推理不一定要用语言来体现,而且输出文本浪费时间,这也是俺一直说的,符合更多共识的做法。

小米也发了一篇解释 XLA 的文章
之所以叫 XLA 而不是 VLA,是因为原生多模态输入,不只是 V 的视觉。
同样也不输出 CoT,因为逻辑推理不一定要用语言来体现,而且输出文本浪费时间,这也是俺一直说的,符合更多共识的做法。

作者最新文章
热门分类
汽车TOP
汽车最新文章