世界模型到底在建模什么

2026年06月29日 17:39

本文共计5685个字，预计阅读时长19分钟。

来源/具身研习社责编/PixelHunter 像素猎人

在2025年到2026年期间，具身智能领域里最受关注的词汇乃是“世界模型”，并且它也是在语义方面最为混乱的词汇。这种混乱并非学术研究上的分歧所导致，而是整个行业在概念方面都还没有完成对齐工作的情况下，就已经开始大规模地投入算力、资金以及研究资源当中。

世界模型到底在对什么内容进行建模？对于这个问题目前尚未形成统一答案。有人对视觉序列的统计规律进行建模，有人对抽象特征空间的物理常识进行建模，还有人对动作以及状态的联合分布进行建模。

2026年6月，李飞飞将世界模型拆分为三类：渲染器（其功能是生成画面）、仿真器（其功能是模拟物理状态）以及规划器（其功能是输出动作）。这一拆分揭示出了一个关键问题，即不同技术路线虽然解决的是完全不同的问题，但却可以包装成同一个故事向外界讲述。

01.

三条路线各自在做什么？

Open AI的Sora模型代表了渲染器路线的典型实现。其核心思路在于将几百亿小时的互联网视频选用作为训练数据，借助模型对逐帧像素进行预测的方式来学习物理规律。问题在于，像素预测本质上进行的是视觉序列的统计规律的学习，而并非物理因果结构的学习。

LeCun所反复强调的现象确实是真实存在的：Sora所生成的玻璃杯碰到地面却没有破碎、人的手臂会穿过椅背，这类“物理幻觉”会反复地出现。NVIDIA的Cosmos3运用两千万小时的视频数据来进行预训练工作，其规模达到了Sora的数倍，但是物理一致性方面的问题依然没有得到根本解决。值得指出的是，Cosmos也开始转向世界状态预测的方向，这表明纯渲染路线的局限已经被NVIDIA自身所意识到了。

LeCun团队的V-JEPA系列走了不同方向：放弃像素重建，转而在抽象特征空间里对物理常识开展了学习。V-JEPA 2运用百万小时视频开展了自监督预训练，仅用62小时机器人数据进行微调，就让机械臂实现了零样本抓取陌生物体。数据效率确实很高，但代价是空间细节的丢失，因为抽象特征空间很难保留毫米级精细操作所需的空间信息。

NVIDIA的DreamZero采取了动作驱动的技术路线，其140亿参数的视频扩散骨干网络对未来状态以及动作序列开展了联合预测，使得零样本泛化能力比纯VLA模型高出2倍。工程实施的难点在于推理效率方面，7Hz的实时闭环控制在实验室环境中勉强可以应用，在机器人本体等边缘设备上还需要进行大幅度的优化工作。

RWTH亚琛和代尔夫特理工大学2026年3月所发布的综述指出了一个核心矛盾：视觉保真度方面的提升以及开环精度方面的改善，并不能等同于实现了更安全的闭环行为。画面内容变得越来越像，并不代表理解程度也越来越深，Sora的画面质量虽然在取得进步，但物理世界理解能力的进步速度却远远无法跟上。

02.

数据困局比技术路线更致命

不同技术路线之间的差异其实只是表象层面，而数据方面的问题才是真正更深层次的根本死结。

世界模型正在面临着一个典型的三角困局：真实交互数据的获取既稀缺又成本高昂，仿真数据存在明显的sim-to-real域差距，而合成数据的使用则会导致模型发生崩溃。Nature期刊发表的“模型崩溃”研究给出了明确结论：运用模型所生成的合成数据来训练下一代模型，其性能将会发生不可逆的退化。

具身智能场景的数据问题具备了其特有的特殊性。全球真实工作场景运行的机器人数量仍然很少，这便构成了一个难以实现快速扩展的数据基础。机器人预训练所需要的第一人称视角操作视频，这类数据在互联网上几乎无法爬取得到。泛化性是另一个核心难题：在100个家庭采集的数据能否成功泛化到10000个家庭？如果不能，采集规模需要达到怎样的量级？这些问题目前还没有明确答案，因此只能依赖于大量投入来进行反复试错。

智元机器人在2026年6月开源的AGIBOT WORLD2026数据集中存在一个值得注意的细节：GE 2.0在开展训练的过程中主动运用了大量“失败数据”，其中包括抓取空手、物体滑落以及动作偏差等非理想轨迹。这一思路指向了一个根本问题：完美的仿真数据无法教会机器人如何应对失败，而真实世界则充满了各类失败。智元选择正视失败数据而不是只运用成功案例来进行训练，这是在数据策略方面所实现的务实转变。

NVIDIA所提出的“计算即数据”范式能够在11小时内生成78万条轨迹，其生成效率达到了惊人的水平，然而这些仿真轨迹与真实物理世界之间所存在的差距究竟有多大，目前仍然缺乏公开的系统性评估工作。数量并不等同于质量。

03.

长时序预测：架构层面的局限

长时序预测的误差累积问题迄今为止尚未取得实质突破。DeepMind的Genie 2虽然号称可以生成长时间连贯的3D交互环境，但是在实际运行过程中一旦超过几分钟场景便会开始出现漂移，其中包括物体悬浮、重力方向发生偏转以及物体凭空出现又消失等情况。这一问题自从2018年Ha与Schmidhuber提出世界模型经典架构以来，一直是该领域所面临的核心痛点。

这并非算力方面的问题，而是架构层面所存在的内在局限。对于需要长时间稳定运行的具身智能任务来说，例如一个机器人完成20分钟的家务流程，或者在工厂产线上开展持续作业，误差累积意味着模型预测会逐渐偏离真实物理状态，最终导致动作规划失效。目前的主流做法是运用频繁的真实观测来对预测偏差开展校正工作，但这又重新回到了对感知系统的依赖，使得世界模型的“预测未来”能力被大幅削弱。

04.

参数规模不是关键

2026年5月CVPR会议上所举办的WorldArena评测发布了一个令许多研究者感到意外的结果：智元研发的GE 2.0模型仅仅运用20亿参数，就凭借68.26分的综合得分在Track 1赛道当中成功力压包括谷歌以及英伟达在内的14支顶尖团队，获得了第一名的成绩，而且在这一过程中并没有针对赛题开展任何特殊的优化工作。由此，20亿参数的模型战胜了参数量达到140亿的对手，以大约七分之一的模型规模实现了胜出。

在具身智能的具体场景当中，仿真精度以及规划效率要比参数规模重要得多。参数堆量并非万能药，这件事在大语言模型领域已经被验证过了，在世界模型上也会再次被验证。更小的模型意味着更低的推理延迟、更少的能耗以及更容易的边缘部署，这些在实际应用中的价值，远超benchmark上几个点的提升。

05.

即便如此，市场仍在加速

技术路线存在固有局限，数据困局难以找到简单解决方案，长时序预测面临架构层面的瓶颈，但这些并没有阻止行业开展大规模的投入工作。因为在具身智能这个赛道上，先发优势依然具有决定性意义。

世界模型创业公司所真正具备的护城河包含三个核心要素：
世界模型创业公司所真正具备的护城河包含三个核心要素：

垂直场景的数据飞轮。机器人具备了遥操作数据，工业装配具备了产线数据。这些数据天然具备排他性，因此无法从互联网上爬取得到。谁先在一个垂直场景里成功把数据闭环跑通，后来者的追赶难度就会呈现指数级上升。数据飞轮一旦转起来，技术上的小幅领先会被数据优势放大成巨大的壁垒。

仿真到真实的域迁移工程能力。这并非论文里刷榜所使用的指标，而是真机部署之后所体现出来的实际成功率。谁能够在sim-to-real gap上做出实质突破，谁就掌握了工业界当中最稀缺的能力。智元运用“失败数据”的思路值得关注：它不是追求更逼真的仿真，而是致力于对更真实的失败场景开展覆盖工作。这种务实的思路，比追求视觉保真度更接近工业落地的真实需求。

端侧部署所需要的工程能力。世界模型最终需要在机器人本体上完成运行工作。让20亿参数的模型在边缘设备上运行与让140亿参数的模型在云服务器上运行，构成了完全不同的工程挑战。轻量化并非进行简单的剪枝工作，而是需要从架构设计阶段就把边缘部署的约束条件考虑进去。能够把模型塞进功耗受限以及算力有限的机器人本体当中，这本身就形成了重要的护城河。

06.

评测标准：谁定义规则，谁就有话语权

在2026年的具身智能领域，技术路线之争的硝烟尚未散去，一场更为隐蔽却影响更为深远的话语权争夺战已经悄然打响。这场战争的核心战场不是算力、不是数据，而是评测标准。谁能够定义“一个好的世界模型应该在什么指标上表现优异”，谁就掌握了引导行业资源流向、塑造未来研究议程的至高权力。

WorldArena在2026年5月CVPR上的结果堪称一次震动：智元机器人仅用20亿参数的GE 2.0，就在没有任何针对性优化的情况下，以68.26分的综合得分力压谷歌、NVIDIA、DeepMind等14家顶尖团队。这不仅仅是一场模型规模的胜利，更是一次评测哲学的胜利。它证明，当基准从“视觉华丽度+短时开环成功率”转向“长时闭环鲁棒性+失败恢复能力+轻量部署效率”时，小而精的模型反而能展现出更强的工业潜力。

然而，这场胜利也暴露了当前评测生态的碎片化与利益化。李飞飞团队在2026年提出的“三类世界模型”框架（渲染器、仿真器、规划器）之后，进一步推出了Physical Causality Benchmark (PCB)。该基准重点考察模型对物理因果关系、反事实推理以及干预能力的掌握程度。PCB直接戳破了Sora和Cosmos这类纯视频生成模型的“物理幻觉”泡沫——无论画面多逼真，如果无法通过因果干预测试，就不能被称为真正理解了世界。

NVIDIA则在GTC 2026期间重磅发布Cosmos Evaluation Suite。该套件将评测重点放在大规模仿真生成质量、百万步长时序稳定性、sim-to-real零样本迁移成功率，以及与Isaac Sim和Omniverse的深度集成指标上。这套规则明显有利于拥有全栈仿真基础设施和庞大合成数据生成能力的玩家。它巧妙地将“计算即数据”的范式转化为可量化的竞争优势，同时把纯学术路线的数据效率主张边缘化。

智元机器人则在AGIBOT World Challenge中推行了一套“Failure-Aware Embodied Benchmark”。这套标准系统记录并评估模型在真实失败场景下的行为恢复能力、规划重置效率和人类干预需求量。GE 2.0的胜利很大程度上源于其训练时主动纳入大量失败轨迹，这与基准的评价维度形成了完美闭环。这种“正视失败”的评测哲学，正在被越来越多的工业界玩家认可，因为真实部署环境中，完美轨迹是稀缺的，而失败才是常态。

Yann LeCun的V-JEPA路线则坚持“高效表征学习”基准，核心指标包括每比特信息蕴含的物理常识量、零样本跨物体跨场景泛化率、抽象特征空间中的规划成功率，而非像素空间的重建FID分数。LeCun多次在公开场合批评当前主流基准存在严重的“benchmark gaming”问题——研究者通过针对特定测试集过拟合，就能获得漂亮的paper数字，但实际部署到机器人上却一塌糊涂。

2026年3月发表在IJRR上的RWTH Aachen与TU Delft联合综述指出了一个核心矛盾：当前超过70%的世界模型论文仅在开环、短时序、高度结构化的仿真环境中进行评测。这些基准严重高估了模型的真实能力，无法预测其在非结构化家庭环境或长时间工业产线上的表现。论文呼吁建立Long-Horizon Closed-Loop Embodied Evaluation标准，要求模型在真实或高保真数字孪生环境中完成30分钟以上的连续任务，且必须包含动态扰动和多轮失败恢复测试。

话语权的争夺远不止于学术论文。OpenAI如果成功将其“视频世界模型”评测框架确立为行业事实标准，就能继续为Sora式的scaling law背书，吸引更多资本涌入渲染器路线。NVIDIA通过绑定硬件和仿真平台的基准，能将竞争维度拉到自己最擅长的全栈工程能力上。而中国团队如智元，如果能让“失败鲁棒性+数据效率+边缘部署成功率”成为主流评价维度，就有可能在应用落地层面实现从跟随到定义规则的跨越。

归根结底，评测标准不是中立的。它是规则的制定者用来固化自身优势、引导资源分配、塑造叙事的工具。在世界模型仍处于“混乱定义”阶段的2026年，能够提出一个被广泛接受、同时指向真实世界可用性的基准框架，或许比发布一个SOTA模型本身更具战略意义。这正是“谁定义规则，谁就有话语权”的具身智能版诠释。

还有一个被大量研究者所忽略的关键方面在于评测标准。目前世界模型领域尚未建立起得到公认的benchmark。对于视频质量的评估，研究人员通常选用PSNR以及SSIM来进行衡量；物理一致性方面则主要运用人类评分的方式开展评估；而机器人操作成功率方面，不同机构会采用各自不同的任务集来进行测试。这就导致了论文当中报告的数字之间相互不可比。

CVPR 2026上推出的WorldArena虽然构成了一次有意义的尝试，然而其在覆盖范围以及权威性方面仍然存在明显不足。谁能够率先定义出得到行业广泛认可的评测标准，谁就能够掌握领域话语权，这一情况与当年ImageNet之于计算机视觉所发挥的作用形成了类似特点。评测标准的制定权本身便构成了一种重要护城河。

07.

突破会来自哪里？

各条技术路线的收敛时间，业内大致预计会落在2027年到2028年之间。李飞飞所做出的判断是，渲染器、仿真器以及规划器三者所具备的底层知识同源（几何、物理以及动力学），其终极形态是可以灵活切换输出形式的统一世界基础模型。这个判断具备其逻辑基础，但是“知识同源”并不等同于“同一套架构能够把所有事情都做好”，大语言模型的演进过程已经向我们展示了这个道理。

在2026年上半年发表的世界模型论文当中，学术争论正变得越来越细致，同时各类框架也越来越趋于相似。这构成了技术走向成熟之前所呈现的典型状态，同时也有可能代表着重大突破发生之前的平静时期。突破更有可能源自于对基础问题的重新思考，例如机器究竟如何理解物理世界这一根本问题，而不是依赖于在现有路线之上开展的渐进式优化工作。

这个人会在什么时候出现、是否会真正出现，目前仍然无法准确判断。但可以确定的是，在那之前，数据飞轮的构建、域迁移能力的掌握以及端侧部署工程的优化，依然是决定胜负的关键。

来源：世界模型到底在建模什么？ | 具身研习社

声明：本文来自具身研习社，版权归作者所有。文章内容仅代表作者独立观点，不代表爱力方立场，转载目的在于传递更多信息。如有侵权，请联系 copyright#agent.ren。