元戎启行周光最新有关VLA的访谈内容:
周光认为,越理解AI的人,越不会质疑VLA。因为从AI发展的路径来看,大模型已经成为不可逆的趋势。VLA并不是一次冒险的押注,而是技术演进的必然结果。他断言,“智驾公司如果不能变成大模型公司,就是死”。
周光估算,做VLA的“入场券”是量产10万台车,只有在真实路况下采集到足够多的驾驶数据,模型才能具备泛化能力。VLA系统的表现,也将随着数据量的增长而持续提升。元戎启行选择直接在量产车上落地,而不是先从Robotaxi起步,原因很简单——Robotaxi的数据量太小,无法支撑大模型训练。截至目前,元戎启行已有超过10万台无图方案上车,并拿下5个VLA量产项目定点。
周光认为VLA是“更有感知力”的驾驶员,通过收集“恐慌数据”——比如人在危险场景下的减速反应、犹豫行为——让AI具备“害怕”的意识,从而学会趋利避害,从感知到认知的跨越,标志着自动驾驶开始学习人类的“情绪式驾驶逻辑”。
周光认为目前的车载算力尚未跟上,英伟达的Thor芯片只有1000 TOPS,而他认为合理的算力应在10000 TOPS级别,VLA目前的潜能还远未被完全释放。外界对VLA的质疑也不少——模型太大、成本太高、解释性不强。但如果回看AI发展史,从CNN到Transformer,再到GPT,每一次模型架构的演变,最初都伴随着质疑,只是当应用真正跑通后,质疑往往会消失。
补充:VLA,指的是视觉(Vision)、语言(Language)与动作(Action)结合的模型,与传统的CNN-based端到端系统不同,VLA是GPT-based架构,让汽车不仅“看得见”,还能“理解”和“推理”。司机可以用自然语言对车辆下达指令,比如“下个路口左转”或“保持60公里车速”,系统能理解语义并执行动作。具备空间推理能力,能在无法直接观测的场景下,推测潜在风险。比如在弯道或隧道中识别盲区风险,这种“防御性驾驶”能力,是传统端到端模型无法实现的。
新能源汽车元戎启行大V聊车