南洋理工、伯克利、斯坦福、ETH联合发表机器人世界模型综述

机器人大讲堂

2026年05月12日 12:03

本文共计4756个字，预计阅读时长16分钟。

来源/机器人大讲堂责编/爱力方

当下的机器人领域正处在一场范式迁移的过程当中。过去，机器人的行为策略主要还是把人工设计的控制规则当作依据，或者借助规模有限的数据驱动模型；到了现在，随着大规模视觉语言模型不断涌现，研究者开始去思考一个更根本的问题：机器人能否像人类那样，在真正采取行动以前，先在脑海里对世界的变化进行一次“预演”？

近日，南洋理工大学、伯克利、斯坦福、东京大学、ETH Zurich、普林斯顿、哈佛等多家顶尖机构共同完成了《World Model for Robot Learning: A Comprehensive Survey》这篇综述论文，对世界模型也就是World Model在机器人学习当中的研究现状做了较为系统的梳理，内容包括架构设计、功能角色、评估体系以及未来挑战。

什么是机器人语境下的世界模型？

“世界模型”其实并非一个全新的概念。早在20世纪60年代的认知科学文献当中，研究者就已经提出，内部模型可以支持对心理过程进行模拟，以及对未来变化开展预测。与此同时，在控制理论以及经典机器人规划领域，类似的前向动力学模型也已经被长期运用。在现代机器学习的语境下，Ha和Schmidhuber于2018年发表的工作，又让这一概念重新回到了主流视野当中。

然而，这篇研究报告并没有简单地沿用已有的定义，而是给出了一个以机器人学习为核心的界定：世界模型是用来表征环境在智能体动作影响下会怎样演化的结构，它的价值并不取决于视觉层面的逼真程度，而在于能否支持机器人的策略学习、规划、仿真、评估以及数据生成。

在这一整体框架当中，世界模型通常需要有三项核心能力，分别是预见性，也就是在真正执行之前，先对未来状态或者行动后果进行预判；由想象驱动的规划，也就是借助虚拟推演去比较不同的候选行为；以及数据增强，也就是凭借合成额外的演示轨迹来对学习效果进行提高。这三项能力共同指向了一个关键前提，也就是世界模型预测质量的衡量标准，必须落在“对行动有用”这一点上，而不能把像素层面的还原度当作准绳。

这一定义的关键意义，就在于把讨论对象的边界更清楚地划分出来。单纯的视频生成模型，并不能直接等同于世界模型，感知预测器也同样不能等同于世界模型。只有在预测结果能够直接服务于具身决策的时候，它才构成论文当中所讨论的“可操作世界模型”。

PART 02

世界模型如何与机器人策略耦合？

论文把世界模型以及策略之间进行结合的方式归纳成五种主要范式，并且进一步指出，这些范式在近些年整体上呈现出了从松散解耦逐步走向深度统一的演进趋势。

第一种范式可以归到解耦式管道当中：世界模型负责去生成未来帧，策略模型一般会借助逆动力学模型IDM从生成视频里提取动作，UniPi就是这条路线较早期的代表。这个方式的结构虽然相对清楚，但因为两个模块是彼此独立进行训练的，生成质量以及动作准确性之间往往会出现比较明显的断层。

第二种范式可以归到单骨干共享架构当中：策略以及世界模型都依赖同一个视觉骨干网络来进行表征学习，这样一来可以减少特征对齐过程里的损耗，不过当任务变得更加多样化的时候，怎样去做容量分配，仍然会是一个挑战。

第三种范式可以归到混合专家，也就是MoE/MoT架构当中：依靠路由机制把计算资源进行动态分配，让不同任务或者模态下的预测以及控制保持相对独立。Motus、LingBot-VA等模型都属于这一路线，并且在LIBERO以及RoboTwin基准上都有较为出色的表现。

第四种范式是统一式的Vision-Language-Action，也就是VLA模型：把视觉、语言理解以及动作生成放到同一个模型当中，并且让世界模型以内嵌结构的方式一同参与训练。DreamVLA、UniVLA、CoWVLA等都可以归到这一类型。

第五种范式可以归到潜在空间世界模型当中：它并不是在像素空间里对未来开展建模，而是在更紧凑的潜在表示当中对状态演化进行预测。VLA-JEPA、JEPA-VLA等方法借助JEPA，也就是Joint Embedding Predictive Architecture框架，来实现高效的潜在预测，在多个基准上的表现和像素级方法持平，甚至还会更优，同时也把计算成本大幅降了下来。

从基准测试的数据情况来看，不同范式在LIBERO四项子任务上的平均成功率已经普遍超过了92%，其中一些方法，比如Cosmos Policy以及LingBot-VA，已经接近98.5%。还需要进一步注意的是，较高的性能并不是依附在某一种单一架构上的，解耦、单骨干、统一、混合以及潜在预测等设计，都可以达到具有竞争力的水平，这表明世界模型对具身控制所体现出来的价值，并不依赖某一条特定的实现路径。不过在“长时序操作”这个子集当中，各类方法的表现仍然有明显分化，这说明跨步骤的一致性推理依旧构成核心瓶颈。

PART 03

世界模型作为仿真器的双重角色

除了把世界模型直接嵌入策略当中之外，论文还专门对它作为学习环境Learned Simulator所具有的功能进行了讨论，这也构成了另一条较为重要的应用路径。

传统强化学习主要还是依赖和真实环境进行交互，因此它的样本效率通常偏低，同时还会带来一定程度的安全风险。世界模型可以把虚拟环境的角色承担起来，让智能体能够在“想象”的轨迹当中去积累经验。借助模型预测控制MPC，智能体会对未来的行动序列进行优化处理，从而尽可能把累积代价降下来。论文指出，这一路径所面临的主要瓶颈就在于计算开销，因为MPC需要进行迭代式推演，而对于高容量模型来说，实时部署依旧比较困难。

世界模型能够在不直接接触真实环境的情况之下，去对候选策略进行排序以及筛选。WorldEval凭借比较策略在学习世界模型当中的推演结果，来验证它是否还能保留在真实环境里的相对排名；WorldGym则把学习模型当作蒙特卡洛评估所用的交互环境，拿来检验策略价值估计和真实环境之间的一致性。这一类评估器尤其适宜在真实部署以前开展大规模的并行筛查工作。

这两类角色实际上共同指向了一条相同的逻辑：世界模型最核心的价值，就在于给决策过程提供可以依靠的代理性反馈。不管是把它当作真实环境交互的替代手段，还是把它作为策略筛选的工具来使用，它最根本的要求始终都在于“动作条件下的物理一致性”，而不在于视觉层面的逼真程度。这样一来，也就直接把评估体系方面的问题引了出来。

PART 04

评估体系：不只看视觉质量的三个维度

论文还进一步说明，具身世界模型在评估方法上从根本上不同于普通视频生成模型所采用的评估框架，并且据此把现有的基准系统概括为三个层次。

所谓开环预测质量，主要看的是在给定动作序列或者语言指令之后，模型所生成的未来观测能否在语义上维持正确、在时间上保持连贯，同时还要对动作给出准确响应。RBench更侧重结构上的一致性以及物理上的合理性，EWMBench则把场景一致性、运动正确性以及语义对齐分开来进行评估。这一类基准虽然比较容易开展标准化处理，但对结果仍要谨慎解读，因为分数高并不等同于对控制任务真正有用。

闭环任务效用会把世界模型放进交互式的决策循环当中，重点考察它给出的预测结果在持续的时序推进里，能不能稳定地支撑后续动作选择。WorldArena、WorldEval以及WorldGym这类基准，分别会从策略排名一致性、价值估计可信度以及任务成功率等几个方面来开展测试。论文还进一步指出，视觉上的可信度只是控制效用的弱代理，和这一点相比，动作敏感性以及可控性才是更可靠的评估指标。

物理一致性以及可执行性诊断，更侧重对推演结果去开展更具体的检验：所生成的轨迹，能不能借助逆动力学模型恢复成合理的动作序列？WorldSimBench把操作评估纳入这一维度，WoW-World-Eval还进一步给出了基于IDM图灵测试的可执行性判定标准。这个维度所强调的核心在于，视觉上看起来可信的推演，并不一定就具备物理上的可行性，而视觉上相对粗糙的推演，也未必对规划没有价值。

这三个层面合在一起，基本形成了一个分层展开的评估框架：其中，开环评估所对应的是模型的可生成能力，闭环评估所对应的是它对决策过程的实际效用，而诊断性评估所对应的，则是物理层面的可执行性。研究团队进一步指出，当前这一领域仍然缺少被广泛接受的统一评估指标，因此不同方法之间的横向比较依旧显得比较分散。面向后续发展，仍有必要建立一套更紧凑的标准化指标集，对预测真实性、动作敏感性、长时序一致性以及控制效用进行联合评估；也只有这样，才能更有效地区分“视觉上可信”以及“真正能够操作”的世界模型。

PART 05

请发送当前需要润色的段落文本。

论文在最后把当前世界模型研究所面临的一些结构性瓶颈做了较为集中的梳理，当中既包括技术层面的限制，也包括方法论层面的约束。

多模态物理信号的融合问题，到现在依然属于一个核心难点。触觉传感器所捕获到的信息，大多是高频的瞬态事件，但这类低维信号在和高维视觉特征一起去开展联合优化时，往往容易被后者所淹没。因此，如何在联合潜在空间当中把视觉语义以及物理反馈之间的关系维持在平衡状态，就成为走向“物理感知机器人智能”的关键一步。与此同时，现有数据集对于触觉、力传感以及密集本体感知这些方面的覆盖依然稀缺，整体规模也明显不及大规模成功演示数据。

把世界模型同经典控制进行整合，实质上反映的是神经网络的表达能力以及形式化控制保证之间长期存在的张力。MPC已经属于一条相对成熟的技术路线，但它对迭代式推演的依赖所带来的计算开销，往往会在动态环境当中成为实时部署时的主要阻碍。更进一步的难点在于，如何把学习得到的随机动力学同李雅普诺夫稳定性这类形式化控制原则结合起来，以此来实现非稳态、开放世界设定下的自适应控制。

符号结构的引入，也为这一问题提供了另一条可行的路径。基于像素来进行推演，往往容易在长时序的展开过程当中不断累积误差；相比之下，符号表示借助对低层细节进行抽象，以及对离散状态转移开展建模，通常可以支撑更加稳定的长时推理。不过，符号表示同样依赖合适的抽象层次以及感知接地；如果高维观测难以稳定地映射到预先定义好的符号上，那么它的推理能力就很容易失效。基于这一点，把学习得到的感知表示同符号结构结合起来的混合世界模型，正在成为一个较有前景的研究方向。

跨具身泛化到现在依然是一项系统性的难点。虽然Open X-Embodiment、RoboMIND 2.0这类跨具身数据集已经陆续出现，但现有的世界模型仍然会对具身类型、动作空间以及任务组合发生变化这件事表现出比较明显的敏感性。某一个基准上看起来较强的结果，往往还是难以迁移到另一个基准，这也说明当前模型在提炼跨平台通用物理规律这方面，依然有比较大的提升空间。

PART 06

结语与未来

从更宏观的角度去看，这篇综述所给出的核心判断在于：世界模型并不只是对现有机器人策略做性能上的补充，而是为了弥补纯反应式策略在长时推理、物理接地以及鲁棒性这些方面所存在系统性缺陷的必要组成部分。随着大规模视频生成能力以及具身数据规模的双向扩展，世界模型的学习质量以及部署效率也都在持续得到提升。不过，研究社区当前所面对的挑战也因此变得更为清楚：在失效恢复、对决策敏感的变体数据以及密集物理监督这些方面，现有数据资源仍然明显不如成功演示那样丰富；评估标准的碎片化，又让跨方法比较缺少可信的公共基线；而从实验室基准走向真实世界部署之间的鸿沟，始终构成这一领域难以回避的最终检验。

论文链接：

https://arxiv.org/pdf/2605.00080

项目地址：

https://ntumars.github.io/wm-robot-survey/

来源：南洋理工、伯克利、斯坦福、ETH联合刊发！机器人世界模型最全综述，看这一篇就够了！ | 机器人大讲堂

声明：本文来自机器人大讲堂，版权归作者所有。文章内容仅代表作者独立观点，不代表A³·爱力方立场，转载目的在于传递更多信息。如有侵权，请联系 copyright#agent.ren。