VLA是将「视觉、语言和动作」等多模态信息“压缩”或“编码”成语言形式,利用大语言模型进行推理与决策降级到语言模型进行训练,好处是简单,坏处是降维过程中信息失真,同时语言对信息的表达能力有限,效率也比较低效,能力上限不够高。
世界模型(World Model)则直接在多维的、与环境同构的隐空间中进行感知、预测与强化学习训练,它不依赖语言中转,而是通过自编码器、动态系统建模等方式构建环境的内在表征,能更高效、精确地模拟物理规律与长期状态演化,具备更高的控制精度与实时性,代表了从“语言理解世界”到“直接感知与预测世界”的范式升级。
举个例子:“一图胜千言”——图像所承载的丰富空间、色彩与结构信息,远非一段文字描述所能完整传达;VLA就像是把图像转成文字再理解,而世界模型则是直接“看懂”图像并预测其动态变化,保留了更完整的“世界”本身。
再简单总结下:Level完全不一样
蔚来汽车[超话]