最近斯拉 AI 副总裁 Ashok Elluswamy 在 ICCV 上所做的 FSD 真的是沸沸扬扬~
红仔在上篇文章也是也是简单的总结了一下,那么我们接着这个话题来猜一猜FSD最新的版本架构是如何的?
红仔觉得FSD应该也是一个快慢系统。
第一个系统是多模态的E2E, 以V+LBS+ 自车的速度定位为主+ 导航需求【导航需求是直接隐射再视觉空间坐标权重偏好里面】,然后直接输出 油门+刹车
另一个系统是 一个 基于LLM 做的VLA,只是用了单个摄像头/会切换摄像头的一个 VLA,然后输出所谓的图像决策【图像tonken】,再以主模型的感知偏好里面去调节。类似右侧是施工的标识,就将右前方的区域全部降权重,因此 决策都是来自于1号主模型输出的
并且系统2是可以做多轮回答的,需要时可以超过3轮
这套架构如何去找车位?举个场景例子:我去得来速
一。导航需求直接在 VA模型的Bev空间进行权重调节,一直可以拉到 停车场口子为止
二。然后进入园区以后,导航没了,这个时候系统就会进行导航需求的权重调节,因此自动会进入类似的漫游模式【NOA漫游】
三。进入漫游的同时异步的LLM ,前向感知会去 给出一个 任务【类似 Where is MC?】 then 给出 BEV空间的 Mark 权重,然后调节Bev 空间中引导。COT思维连可能是?
Q1: Where is 得来速的通道 ?
A1:右前侧
Q2: 怎么开过去 ?
A2:这里是死路,可能要从后面绕,后面有个引导牌子,估计是得先开到引导牌子 ?
Q3:开过去后发现 引导牌子确认后,如何进到得来速的 通道?
A3:检测BEV空间中两边的边缘性,跟着 通道的前车慢慢开。
四。最后主模型输出 BEV引导线,并调节VA 模型中的减速
PS:红仔觉得FSD可能是可达是用主模型来做的,LLM仅仅只是来做引导,并且这个慢系统会一边开一边想
大v聊车自动驾驶AI大模型
