李飞飞主张生成世界，杨立昆强调提取世界：为何世界模型研究出现两大方向？

2026年06月18日 19:37

本文共计4359个字，预计阅读时长15分钟。

来源/具身研习社责编/ShuxiangMama 书香妈妈

当前对“世界模型”这一术语的广泛使用，在一定程度上模糊了其核心内涵。李飞飞与杨立昆虽然都致力于研究“世界模型”，但二者的内涵与目标存在本质区别。前者致力于将世界构建为可编辑的三维对象，而后者则侧重于使机器能够在内部模拟世界的状态演变。这并非单纯的技术路线之争，而是核心问题定义层面的错位。因此，要厘清这一分歧，首先需要明确：双方各自致力于解决的，究竟是哪个层次的问题？

PART 01

当前对于“世界模型”这一术语的广泛使用，使得其核心内涵在一定程度上被模糊了。李飞飞与杨立昆虽然都致力于开展关于“世界模型”的研究，但二者的目标与内涵存在本质区别：前者旨在将世界建模为可编辑的三维对象，以便进行操作与理解；而后者则侧重于使机器能够在内部模拟世界状态随时间的演变。这并非单纯的技术路线之争，而是核心问题定义层面的错位。因此，要厘清这一分歧，首先必须明确的是：双方各自致力于解决的，究竟是哪个层次的问题？

她从ImageNet项目起步，便专注于探索视觉系统如何解析物体；随后将研究方向转向机器人领域，着重于使机械臂能够在真实环境中执行抓取与移动操作；如今创办World Labs，提出‘3D as code’，其核心理念始终如一：赋予机器操作空间的能力，而非仅仅描述它。

她选择不深究“智能本质”这一抽象命题，转而关注现实中哪些领域的发展受到了制约。例如，影视、游戏以及建筑行业在生产3D内容的过程中，普遍面临着速度缓慢且成本高昂的困境。同一个场景往往需要反复修改，从而导致美术团队不得不进行多次重复性绘制。

World Labs推出的Marble工具，用户输入一段文字描述或草图，系统便能自动生成结构一致、光照连贯的三维环境，生成结果可直接导入Blender或Unreal进行后续调整。该工具的设计目标并非技术展示，而是将生成结果无缝融入现有生产流程，使"世界"成为可检查、可组合、可执行的工程对象。

她所招募的团队成员，多数具备图形学与计算机视觉的专业背景，熟悉几何约束原理、渲染管线流程以及多视角一致性校验。这些成员不依赖抽象的哲学思辨来开展工作，而是致力于解决像素级误差、避免模型穿插以及确保几何边界连续性。

他们并不要求模型真正理解牛顿定律，其判断标准是：只要生成的房间在视角转换时保持结构稳定，且人物能够在其中自由移动而不发生穿模，即被视为达到了要求。这一技术路径的合理之处在于，它并不追求对物理规律的完全正确复现，而是专注于满足实际应用中的基本可用性。这与早期图像识别模型的情况类似，当时的ImageNet模型虽然无法准确区分泰迪熊与豪猪的细微差别，但只要在大多数常见场景下不产生根本性误判，便足以被集成到手机相册中以实现自动分类功能。

但暴露出来的问题同样显而易见：即便生成的场景在视觉上足够逼真，机器也无法判断门是否能够被顺利推开、抽屉拉出后是否会掉落、人踩在地板上时会产生怎样的声响。这套系统所提供的本质上是静态的结构信息，而非动态的行为理解。一旦任务目标从"视觉展示"转向"实际交互"——例如让机器人进入场景寻找钥匙——系统的根本性缺陷便暴露无遗。它既不具备物理建模的能力，也缺少碰撞响应的模拟机制，仅仅是维持了视觉层面的表面一致性。

PART 02

杨立昆所提出的"世界模型"，是否真正具备替代生成式方法的能力？

自2017年起，杨立昆便开始提倡自主机器智能（AMI）的概念。其核心理念在于，智能体需要在内部具备预测能力，即能够判断“如果我采取某种行动，世界将会如何变化”。他对于将世界模型等同于3D渲染器的观点持明确反对态度。

这段话精准地抓住了杨立昆世界模型理念的核心要点。

功能抽象而非视觉还原

开车时大脑真正处理的信息高度抽象化：
- 前车距离：空间关系的量化
- 加速度与制动概率：对动态行为的预测
- 自身操作后的相对位移：因果推演能力

路灯的纹理、车身的反光、远处建筑的细节——这些视觉信息对于驾驶决策几乎没有贡献。大脑并非无法感知它们，而是主动忽略了。

这揭示了一个根本性问题

李飞飞的路径追求的是"看清楚世界是什么样"，而杨立昆追求的是"理解世界会怎样变化"。前者需要精细的纹理和光照；后者需要的是物理规律的内化——距离、速度、力、碰撞可能性。

一个优秀的司机闭着眼睛都能通过方向盘和油门的反馈感知车速和路面状况，却可能完全不记得路边广告牌写了什么。

这正是两种世界模型的分水岭

一个用于渲染，一个用于预测。一个服务于视觉呈现，一个服务于行动决策。杨立昆认为，真正的智能不在于复制世界的外观，而在于掌握世界运行的内在逻辑。

因此，他坚持采用JEPA（联合嵌入预测架构）这一方案。该架构包含两个独立的编码器，它们分别对当前观测数据与目标状态信息进行编码处理；在此基础上，预测器在被压缩的表征空间内部对未来状态进行推演，整个过程无需接触或处理原始像素数据。

JEPA这一技术路线在计算效率与任务聚焦性方面展现出显著优势。像素级生成方法需要对视频中的每一帧画面进行预测，这涉及处理大量的噪点、反光以及图像抖动等细节；而JEPA则专注于学习那些可预测的结构变量，例如物体位置、运动速度以及相互间的接触关系。其设计目的并非为了生成供人类观看的逼真画面，而是直接为系统的规划与决策模块提供服务。

在医疗应用场景中，这种设计范式的重要性变得尤为突出。由于美国食品药品监督管理局要求医疗决策的过程必须具备可解释性与可追溯性，因此大语言模型所依赖的“概率幻觉”机制在此场景下难以适用。AMI Labs与Nabla合作开发的临床助手，其核心目标在于以患者生理参数为基础构建模型，从而预测病情的演化路径，而非生成一段表面听似医生口吻的文字。这也解释了法国政府为何愿意为此类项目提供背书，因为在高监管要求的领域内，所依赖的是确定性的推理能力，而非语言的流畅程度。

然而，该技术路径所面临的瓶颈也十分突出。对于抽象表征的获取方式，以及仅依靠视频自监督学习能否让模型掌握物理常识，目前尚未形成可靠的技术路径。杨立昆本人也承认，如何让模型在不预设几何规则的前提下，内化足够强的因果结构，这仍然是一个开放性的问题。

更麻烦的是，该系统在直观反馈方面存在显著缺陷：生成一张图像时，人可以立刻识别错误；但内部表征空间中的偏差，往往要等到机器人发生碰撞才暴露。这使得快速迭代变得困难，产品化周期远长于构造路径。

PART 03

这两条技术路径究竟是否能够实现真正的融合，还是仅仅停留在相互借鉴的层面？

有人提出"World Labs生成的数据可用来训练JEPA，从而增强生成模型的物理合理性"这一设想。该观点在表面上显得颇具说服力，但实际上模糊了两条技术路线之间的分工边界。根本问题在于：生成模型所输出的内容是几何结构——涵盖空间坐标、纹理以及法线信息，而JEPA系统真正需要的是状态变量——诸如速度、力以及接触概率等动态属性。将原始3D数据直接输入JEPA，就如同用CAD工程图纸来训练自动驾驶模型一样，二者在数据格式上不相匹配，在语义层面上也缺乏对应关系。

真正意义上的协同作用，仅在特定的技术环节中得以实现。例如，当运用World Labs所生成的具备高保真度的仿真环境来训练机器人的行为策略时，其中的三维场景充当了策略试错的“沙盒”。然而，该策略在实时执行时的感知与决策，仍然依赖于其内部所构建的世界模型进行状态预测与推演。必须明确的是，这个作为测试平台的沙盒环境，其本身并不等同于机器人的认知模型。

因此，诸如AME Labs的临床辅助系统，不会调用由Marble生成的虚拟房间数据；同样，Nabla为医生设计的助手，也不依赖三维场景导航功能。其根本原因在于，这两套技术体系所面向的应用场景存在本质差异：它们处理的输入数据格式不同，采用的核心算法与输出目标也不同，最终的评估标准更是大相径庭。对于前者，商业成功的关键指标可能是用户是否愿意持续付费订阅；而对于后者，其有效性的核心判据则在于，模型预测的误差是否被控制在临床可接受的阈值之下。

实现融合的首要前提是建立统一的接口标准，但当前这一条件尚未具备。3D as code框架中的"code"指向结构化网格与材质，而JEPA架构中的"code"则对应嵌入向量与能量函数。前者主要服务于Unity等渲染引擎的输入需求，后者则适配规划器的决策逻辑。如果将两者强行整合，最终产出的将是一个在生成效率与预测可靠性两方面都无法达到预期的折中产物。

PART 04

技术路径的选择，实际上根本性地决定于所面临问题的具体性质。

World Labs之所以能够在硅谷迅速落地，原因在于其目标客户群体十分明确，涵盖了游戏公司、建筑可视化团队以及工业设计部门。这些客户所需要解决的核心问题，是大幅缩短从设计草图到可用原型之间的转化周期。李飞飞所提出的技术路径，其针对的正是这一效率瓶颈，解决方案侧重于工程层面的适配工作，确保输出结果能够与现有的工具链形成有效对接。

AMI Labs在巴黎的业务推进，其策略优势建立在对特定制度环境的利用之上：欧洲地区针对高风险人工智能实施的严格审查制度，客观上为可解释、非黑箱模型的发展创造了市场空间。杨立昆的战略核心在于押注这一“合规红利”。当医疗健康、工业控制等对安全性与可解释性有严苛要求的领域，因其固有风险而普遍拒绝采用大语言模型（LLM）时，其倡导的世界模型技术路径便获得了关键的切入机会。这一路径的战略重心并不在于追求模型的通用性，而是致力于在特定的关键应用场景中，构建起不可替代的性能优势。

这并非关乎技术本身孰优孰劣，而是取决于技术路线与特定约束条件之间的匹配程度。在开展自动驾驶仿真工作时，可能会先运用生成式模型来构建虚拟环境，再借助联合嵌入预测架构（JEPA）在其中进行决策训练。然而，在手术导航场景下，则直接依赖于系统内部对状态变量的建模与预测，根本无需生成可供漫游的三维场景。由此可见，技术路径的选择并不存在普适的最优解，真正起决定作用的，是具体应用场景所提出的内在要求。

世界模型的真正价值，其根本并不在于对外部世界进行精确的复制或复刻，而在于为机器在执行特定任务时，提供一种减少错误并增强事前预判的能力。李飞飞的技术路径，其核心目标是赋予机器一种能够感知并“进入”物理世界的能力，这主要通过对三维结构化环境的建模来实现。杨立昆的技术路径，则致力于让机器能够在内部对世界的状态变化进行模拟，从而获得“应对”世界的能力。从这个角度看，前者解决的是机器与物理环境进行交互的入口问题，而后者则解决的是机器基于世界状态进行推理与行动的决策问题。两者之间并非能力的优劣对比，而是体现了在通往通用智能的路径上，不同阶段或不同功能层面所必需的先后顺序与明确分工。

来源：李飞飞生成世界，杨立昆提取世界：为何"世界模型"指向了两个方向？ | 具身研习社

声明：本文来自具身研习社，版权归作者所有。文章内容仅代表作者独立观点，不代表爱力方立场，转载目的在于传递更多信息。如有侵权，请联系 copyright#agent.ren。