李飞飞:世界模型的功能分类
渲染器、模拟器、规划器
第一种世界模型是渲染器。渲染器以像素形式输出供人眼观测的信息,其核心指标是视觉逼真度。将文本提示转化为电影级航拍镜头的视频模型就是渲染器;类似 Google Genie 3 或 World Labs 自主开发的 RTFM 这类实时生成系统亦属此列——模型根据用户输入实时生成画面帧,却不具备对三维结构的明确理解。它呈现的是观者所见,而非事物本质。航拍镜头中的建筑或许从高空视角看来完美无瑕,但若尝试驾车穿行其下城区,这些建筑便会分崩离析。
第二类是模拟器。模拟器输出状态:一种几何、物理或动态层面忠实于世界的表征,人类和计算机程序皆可对其计算和交互。渲染器的契约纯粹关乎视觉,而模拟器的契约关乎结构,它要求几何结构经得起推敲,物理过程遵循牛顿定律,动态表现符合物理定律下世界应有的运行规律。模拟器同时服务于两类用户:人类专业人士(如建筑师、设计师、电影人和游戏开发者)需要超越视觉合理性的精确性;计算机程序(如强化学习智能体、机器人控制器和自动驾驶车辆)则将模拟器用作训练场,在此能大规模与世界互动,测试那些在现实中危险、昂贵或不可能实施的场景。
第三类是规划器。规划器负责输出行动方案。面对特定观测和目标,规划器要回答"智能体下一步该做什么"这个问题。这在很大程度上是渲染器的逆向对应:渲染器以行动为输入生成观测,规划器则以观测为输入生成行动,共同构成感知行动闭环。视觉语言动作模型、基于模型的系统,以及新兴的世界行动模型浪潮,本质上都是对规划器的探索——即能在非结构化环境中为机器人决策的系统。
三类之中,模拟器获得的公众关注最少,影响却最为深远。
渲染器在商业化成熟度上遥遥领先。技术真实存在,市场也确实蓬勃。然而渲染器追求的是视觉合理而非物理精确,这种局限性至关重要。其产出固然精美,却不能信赖其去设计建筑或训练机器人。
规划器是最引人入胜且最具潜力的方向,与飞速发展的机器人学习领域紧密相连。过去两年间,该领域确实在视频演示中展现了令人印象深刻的机器人成果,但必须坦诚审视这些演示的真实水平。几乎所有案例都局限于高度受限的实验室环境,仅能处理有限的物体种类和简短的任务周期。
模拟是连接二者的桥梁。若语言是对世界的抽象表达,像素是对世界的投影呈现,那么几何、物理与动力学便是世界本身。模拟器必须在这一层面运作:作为结构性骨架,既能派生视觉外观(供渲染器使用),也能推演行动后果(供规划器使用)。
当前领域最重要的趋势在于,这三个类别正逐渐融为一体。核心共识在于:构建、模拟并在世界中行动所需的知识体系,本质上是相通的。
逻辑终点是建立一个统一的世界模型:一个基础模型能够生成照片级逼真的视图、产出物理精确的结构,并规划行动序列,根据下游消费者的需求灵活切换输出模态。
但仍面临很多挑战。数据资源分布不均——渲染器坐拥海量互联网视频数据,而模拟器与规划器却面临 3D 资产与机器人演示数据的严重匮乏。
链接:drfeifei.substack.com/p/a-functional-taxonomy-of-world-models

