李飞飞：世界模型的功能分类渲染器、模拟器、规划器第一种世界模型是渲染器。渲染器以

李飞飞：世界模型的功能分类

渲染器、模拟器、规划器

第一种世界模型是渲染器。渲染器以像素形式输出供人眼观测的信息，其核心指标是视觉逼真度。将文本提示转化为电影级航拍镜头的视频模型就是渲染器；类似 Google Genie 3 或 World Labs 自主开发的 RTFM 这类实时生成系统亦属此列——模型根据用户输入实时生成画面帧，却不具备对三维结构的明确理解。它呈现的是观者所见，而非事物本质。航拍镜头中的建筑或许从高空视角看来完美无瑕，但若尝试驾车穿行其下城区，这些建筑便会分崩离析。

第二类是模拟器。模拟器输出状态：一种几何、物理或动态层面忠实于世界的表征，人类和计算机程序皆可对其计算和交互。渲染器的契约纯粹关乎视觉，而模拟器的契约关乎结构，它要求几何结构经得起推敲，物理过程遵循牛顿定律，动态表现符合物理定律下世界应有的运行规律。模拟器同时服务于两类用户：人类专业人士（如建筑师、设计师、电影人和游戏开发者）需要超越视觉合理性的精确性；计算机程序（如强化学习智能体、机器人控制器和自动驾驶车辆）则将模拟器用作训练场，在此能大规模与世界互动，测试那些在现实中危险、昂贵或不可能实施的场景。

第三类是规划器。规划器负责输出行动方案。面对特定观测和目标，规划器要回答"智能体下一步该做什么"这个问题。这在很大程度上是渲染器的逆向对应：渲染器以行动为输入生成观测，规划器则以观测为输入生成行动，共同构成感知行动闭环。视觉语言动作模型、基于模型的系统，以及新兴的世界行动模型浪潮，本质上都是对规划器的探索——即能在非结构化环境中为机器人决策的系统。

三类之中，模拟器获得的公众关注最少，影响却最为深远。

渲染器在商业化成熟度上遥遥领先。技术真实存在，市场也确实蓬勃。然而渲染器追求的是视觉合理而非物理精确，这种局限性至关重要。其产出固然精美，却不能信赖其去设计建筑或训练机器人。

规划器是最引人入胜且最具潜力的方向，与飞速发展的机器人学习领域紧密相连。过去两年间，该领域确实在视频演示中展现了令人印象深刻的机器人成果，但必须坦诚审视这些演示的真实水平。几乎所有案例都局限于高度受限的实验室环境，仅能处理有限的物体种类和简短的任务周期。

模拟是连接二者的桥梁。若语言是对世界的抽象表达，像素是对世界的投影呈现，那么几何、物理与动力学便是世界本身。模拟器必须在这一层面运作：作为结构性骨架，既能派生视觉外观（供渲染器使用），也能推演行动后果（供规划器使用）。

当前领域最重要的趋势在于，这三个类别正逐渐融为一体。核心共识在于：构建、模拟并在世界中行动所需的知识体系，本质上是相通的。

逻辑终点是建立一个统一的世界模型：一个基础模型能够生成照片级逼真的视图、产出物理精确的结构，并规划行动序列，根据下游消费者的需求灵活切换输出模态。

但仍面临很多挑战。数据资源分布不均——渲染器坐拥海量互联网视频数据，而模拟器与规划器却面临 3D 资产与机器人演示数据的严重匮乏。

链接：drfeifei.substack.com/p/a-functional-taxonomy-of-world-models