小鹏发布世界模型技术报告一个月3亿的钱都花在哪儿了：X-World世界模型前置

小鹏发布世界模型技术报告一个月3亿的钱都花在哪儿了：X-World世界模型前置读物1：VLA2.0与传统VLA 网页链接前置读物2：Visual CoT与世界模型网页链接

今天第3篇再来说说小鹏的X-World世界模型技术细节，这次是首次官宣。是一个基于视频扩散生成技术构建的、服务于自动驾驶的可控多视角生成式世界模型。这也是我【前置读物2】中说的行业内更严谨说法的“世界模型”。

一、X-World的架构组成：视频VAE+DiT去噪器+独特的注意力和缓存机制。

1. 视频VAE——路况的压缩机视频VAE就像一个非常高效的"信息压缩机"，它能将复杂的视频画面压缩成关键特征，又能在需要时还原回视频。

这种压缩-重建的过程大大降低了计算量，使得处理长视频变得可行。传统方法处理视频就像逐帧分析电影，效率低下；而VAE则是先提取电影的剧情大纲，再根据大纲生成后续画面，大大提高了效率。

2. DiT去噪器——预测未来DiT代表"Diffusion Transformer"，它结合了扩散模型和Transformer架构：什么是扩散模型呢？扩散模型就像把清晰照片加噪点变模糊，再学着去噪还原。它的逆向操作就是从模糊猜清晰。

它在视频生成过程中提取关键特征，直接指导动作生成。它不等待视频模型完全输出"完整的未来画面"，而是在生成过程中（即去噪的中途）提取关键特征，用这些半成品特征指导动作决策。

当两者结合时，DiT去噪器能够：•接收VAE压缩后的路况特征•根据输入的驾驶动作（如"向左变道"或"减速停车"）预测未来特征变化•通过类似"逐步擦除噪点"的过程生成未来视频

比如你希望视频中的车辆向左变道，他能预测变道后的画面变化，像画家修草图一样，一步步生成未来的视频。DiT的预测能力让X-World能够思考未来路况，是构建视频生成模型的关键基石。

3. 视角-时间自注意力机制：X-World最独特的地方在于它的"视角-时间自注意力机制"，这就像一位能够同时关注多个监控屏幕并分析时间变化的超级交管。

传统模型往往难以同时处理空间（不同摄像头视角）和时间（连续帧）维度的信息，导致生成的视频在多视角下出现不一致的情况（比如前视和后视摄像头显示的车辆位置不同）。

而X-World的注意力机制能够在时间维度上关注车辆运动的历史轨迹，预测其未来路径。在视角维度上关注不同摄像头视角下的同一物体，确保多视角一致性。

这就像一位交通管理者，一边看着不同角度的多个监控视频，一边综合判断路况变化。这种能力使得X-World生成的7路摄像头视频高度一致，就像真实的驾驶场景。

4. 滚动键值缓存机制：驾驶的"记忆日记"滚动键值缓存机制是X-World的"记忆系统"，它像一本只记录关键变化的驾驶日记。

传统视频生成模型在处理长视频时，会像滚雪球一样累积误差，导致越到后面视频误差越大。而滚动键值缓存机制只记录关键的历史信息（比如车辆变道的瞬间），后续生成时直接参考这些关键点，而不是重新计算整个历史。

这就像一位司机在长途驾驶时，只在日记本上记录重要的路况变化（如遇到施工、天气突变），而不是每一秒钟的细节。需要预判未来路况时，他只需翻阅这些关键记录，就能快速做出判断。这种机制让X-World能够生成任意长度的视频，同时保持画质稳定和色彩准确。

二、X-World的应用场景X-World在自动驾驶中是如何发挥作用的，它主要有三大应用场景：

1. 闭环仿真测试环境：传统上，自动驾驶系统评估主要依赖实车道路测试和3D高斯溅射(3DGS)仿真方法。但3DGS方法在处理自动驾驶模型大幅变道、绕行等行为时，往往难以有效生成超出原始轨迹的后续场景。而X-World的第一个角色是"模拟器"，它为自动驾驶系统提供了一个高度真实的虚拟考场。

它能根据输入的多摄像头历史视频流和驾驶动作，生成对应的未来多摄像头视频流。在这个虚拟环境中，可以测试自动驾驶系统在各种场景下的表现，如碰撞率、目标达成进度、乘坐舒适性等。

关键是X-World的仿真测试效率极高——一年前小鹏只有3万个仿真场景，现在已增加到超过50万个；每天的仿真测试里程等效于3000万公里实车测试，相当于每天绕地球7圈！这也是他们每天4个版本迭代的前置科技保障。

这种高效的闭环仿真测试大幅降低了研发成本，提高了测试覆盖率，让自动驾驶系统在虚拟世界中练习各种可能的路况，为实车测试打下坚实基础。

2.自动驾驶的教练，在线强化学习平台：自动驾驶系统在实际道路上会遇到许多挑战，比如：•行人在路口突然鬼探头•拥堵路段变道犹豫不决•突发的恶劣天气或道路施工X-World能针对这些难点场景，生成高度可控的训练视频，让自动驾驶系统在虚拟世界中反复练习，直到掌握应对技巧。就像一位教练，可以反复设计各种难度的训练场景，让运动员在安全的环境中提高技能。

与传统实车训练相比，X-World除了算力支出，成本几乎为零，无需支付车辆损耗和人工成本，也可以安全地测试危险场景，无需担心真实事故风险。当然也可以无限次重复训练同一场景，直到系统表现完美

3. 数据生产工厂——自动驾驶的虚拟制造中心

自动驾驶系统需要大量数据来训练，但有些数据在现实中非常难以获取：•长尾场景数据：比如极端天气下的驾驶、罕见的交通事故场景、突然出现的障碍物等。这些情况现实中极少发生，但对自动驾驶系统至关重要。

•海外数据：小鹏汽车希望将自动驾驶技术推广到全球，但不同国家的道路规则、交通状况差异很大，不可能在所有国家都进行大量实车测试。这种能力大幅降低了数据采集的成本和难度，让自动驾驶系统能够提前预习各种可能遇到的复杂情况。

三、X-World的技术突破：1.从"不可控的画师"到"精确的一致性"。就像【前置读物2】中说的，世界模型类似春节时候爆火的seedance 2.0视频生成模型，但X-World相比传统视频生成模型，主要有以下技术突破：

传统视频生成模型像一位随意作画的艺术家，难以精确控制画中的每个元素。而X-World则实现了对自车、其他交通参与者、道路结构和环境的细粒度控制，解决了视频生成模型不可控和一致性的问题。这意味着后台工程师可以精确指定：•自车的位置和速度•周围车辆的运动轨迹•行人的行走路线•道路的结构变化•天气和光照条件X-World能确保这7路摄像头视角生成的视频在时间和空间上高度一致，就像真实的驾驶场景。

2.长视频输出能力。与传统的视频生成模型只能输出十几秒的短视频不同，X-World的滚动键值缓存机制支持任意长度视频生成，同时保持画质稳定、无明显色偏。

这意味着自动驾驶系统可以在虚拟环境中驾驶数小时甚至数天，测试其在长时间驾驶中的表现；也可以模拟长途驾驶中的各种变化，如光线从白天到黑夜，天气从晴朗到下雨。这种能力使得X-World可以模拟更复杂的驾驶场景，为自动驾驶系统提供更全面的训练和测试环境。

3.物理约束建模。传统视频生成模型有时会生成不符合物理规律的魔幻场景，比如车辆突然瞬移、行人违反物理规律地穿过马路等。而X-World则引入了物理约束建模，确保生成的场景符合现实世界的物理规律。这种物理约束建模使得X-World生成的场景更加真实可靠，为自动驾驶系统提供了更贴近现实的训练数据。

四、X-World的实际应用价值：自动驾驶的加速器自动驾驶系统的研发周期往往很长，因为需要大量的实车测试来验证系统表现。而X-World通过高效的闭环仿真测试，大大缩短了这一周期；每天的仿真测试里程相当于3000万公里实车测试，大幅提高了测试效率。

关键是可以在虚拟环境中测试各种极端和罕见场景，无需等待现实中的发生，这种训练方式类似于让一位司机在模拟器中反复练习各种紧急情况的应对，直到成为老司机。另外，测试结果可以快速反馈给研发团队，无需等待用户反馈，加速问题发现和修复！

希望在我鹏X-World世界模型的加持下，自动驾驶技术将能够更快地走向成熟，为用户提供更加安全的智能出行体验，早日实现L4！

小鹏世界模型加速第二代VLA落地小鹏汽车