具身智能“大平行理论”会成真吗？

2026年06月18日 14:58

本文共计7656个字，预计阅读时长26分钟。

来源/具身研习社责编/jikelaowang 极客老王

在过去的一年中，世界模型与具身智能在人工智能领域内迅速攀升至讨论焦点的前列。然而，一个更为关键的问题在于：机器人技术是否会遵循一条与大型语言模型相似的发展路径，即经历一段突然的技术收敛期，并随之实现快速的规模化应用？

本文由Fusion Fund的两位投资人Charlotte Xia与Matt Wong撰写。他们围绕英伟达科学家Jim Fan提出的“伟大平行”这一核心观点展开分析，旨在探讨具身智能是否能够遵循与大语言模型相似的发展路径：即首先通过大规模预训练来形成对世界的理解，随后通过行动与物理环境交互来实现对齐。

该篇文章并未急于给出一个确定的结论，而是将当前具身智能领域所面临的几个关键分歧，明确地呈现出来：当前所热议的“世界模型”路径，究竟是否为推动该领域发展的根本答案；针对机器人与物理世界交互所产生的海量数据，应当通过何种有效策略来进行规模化积累；而新兴创业公司，在巨头林立的竞争格局下，其能够切入并实现突破的机遇窗口又具体存在于何处。

以下是完整编译。

在深入展开讨论之前，需要先对本文所涉及的"世界模型"概念进行明确界定。本文借鉴了清华大学Jingtao Ding等人近期发表的世界模型综述，该综述中所提供的定义与本文的研究语境相契合：

世界模型的核心构建工作主要围绕两个关键功能展开：其一是通过构建内部表示来深入理解世界的运作机制；其二是预测未来状态，以便进行模拟并指导决策。

在具身 AI 的语境下，决策则定义为物理智能体——诸如机器人与自动驾驶车辆等系统——通过何种机制来选择具体行动，以在现实世界中达成其既定目标。

模型分歧：VLA vs. 世界模型 vs. 其他

视觉-语言-动作（VLA）模型通过对观测数据——包括图像、语言指令与机器人状态——进行处理，来实现对机器人动作的直接映射。具体而言，它旨在实现可泛化的具身控制：其预训练的视觉-语言模型（VLM）骨干网络提供了丰富的视觉-语义先验知识，而动作解码器则负责将这种语义理解转化为连续的运动指令。然而，VLM通常在静态的图像-文本数据集上进行预训练，因此所继承的时空先验知识相对有限。从更根本的层面看，VLA的运作空间是文本——这是一种与动作无关的符号化抽象，可能缺乏对物理世界至关重要的信息，例如时空维度的理解。

近期，世界建模已被广泛讨论为机器人学习领域内一种有望突破VLA范式的范式转变方向。如上文所述，许多现代世界模型采取了基于视频模型的机器人策略设计思路，将继承了丰富且多样化时空先验知识的扩散模型骨干架构与逆动力学模型进行配对组合，从而能够从所生成的视频序列中提取出相应的控制动作——这一技术方法最初由Yilun Du等人在UniPi研究工作中提出并开创。更新的研究工作则在此基础上取得了更进一步的进展，实现了对动作与未来世界状态的联合预测建模，例如NVIDIA近期所发表的DreamZero论文所展示的成果。更为深层的范式转变体现在机器人所学到知识的本质特征方面：不再是学习某个特定机器人设备应当如何进行移动操作，而是掌握了世界本身所蕴含的物理动态规律，并且这种知识可以跨越不同机器人形态进行迁移应用。由于世界模型本身是以动作作为条件来构建的，它还能够支持交互式的查询操作，使得机器人能够借助反事实推理能力（例如"如果我执行这个动作会产生什么后果？"）来实现实时的规划决策。相比之下，VLA模型往往采用单次处理的方式将记忆中的场景信息映射为动作输出，因此当其面临训练过程中从未出现过的未见环境或非结构化场景时，就会遭遇明显的性能困境。尽管如此，在像素空间中执行推理任务仍然是一个开放的研究问题，所以当前大多数世界模型尚且缺乏相应的推理能力。

事实上，近期的多篇研究论文已充分证实，世界模型在样本效率与泛化能力这两个核心维度上均显著优于视觉-语言-动作模型。以NVIDIA推出的DreamZero为例，该系统在未曾接触过的任务类型与工作环境条件下，相较于当前最先进的开源VLA方案取得了约两倍的性能提升。更关键的是，DreamZero有效解锁了一类VLA无法高效利用的训练数据结构：传统VLA需要依赖大量重复性演示来完成学习——例如将"拾取杯子"这一动作重复执行五十次——而DreamZero仅需采用单个连续时长约五分钟的遥操作序列作为训练数据，该序列即可涵盖大约四十二个各不相同的子任务。

DreamZero 成功展示了针对未曾遇到的任务所具备的零样本泛化能力。该系统在训练过程中缺失的10项任务上均取得了可观的任务进展，相比之下，视觉-语言-动作模型在两种机器人形态上的表现则相对较弱。以AgiBot G1平台为例，从零开始训练的VLA所达到的任务进度接近于零（不足1%），而DreamZero在相同条件下平均可达到39.5%的任务完成率。相关研究工作详见Seonghyeon Ye等人所发表的论文《World Action Models are Zero-shot Policies》（arXiv，2026）。

然而，该领域目前仍处于非常早期且不断演进的阶段，尚不清楚哪种模型架构最终将占据主导地位。Physical Intelligence曾公开承认，他们投入了一段时间来押注世界模型将在任务泛化方面大幅超越VLA；这项押注最初确实得到了回报，直到他们自身的VLA基线模型随着更多数据的引入而逐渐赶了上来，同样开始展现出泛化能力。RoboArena排行榜所呈现的局面高度动态，在VLA模型与新兴世界模型之间持续进行的架构争论之中，各项评分仍然在发生显著变动。

尽管如此，一些研究人员认为，从长远视角来看，单纯依赖视频生成作为骨干架构并非实现物理智能的最优路径。他们所持的核心论点在于，机器人学所需的智能形式并不必然要求像素级别的视觉保真度。更为关键的是，人类智能所调用的感觉信息维度远比视觉更为丰富——涵盖了从触觉、本体觉到前庭反馈等多个层面——因此，完全建立在视觉单一模态之上的架构可能并非最终答案。这一认知为混合范式的发展开辟了空间。在该范式中，视觉-语言-动作模型可被用于执行高层的任务分解与语义理解，而世界模型则以其预测性与生成性的动态建模能力提供互补，其内在逻辑在于二者能够各自弥补对方的短板。当前最为宏大的技术赌注则指向了“全能模型”，这一方向以英伟达近期发布的Cosmos 3为代表。该模型并非将单独的模块进行拼接，而是在单一系统内原生地集成了视觉推理、世界生成与动作预测能力，从而能够统一地理解和生成文本、图像、视频、环境声音以及动作。

数据扩展分歧

近几个月以来，数家机器人基础模型公司所发布的一系列成果充分表明，该领域在收集何种数据以及如何扩展数据规模这两个问题上，尚未形成统一的共识。Generalist公司则收集了50万小时的UMI风格物理交互数据，从而开创了将此类数据进行规模化扩展，以作为机器人基础模型新型底层基础的先河。Physical Intelligence推出的π0.7模型，运用了VLA模型并借助极为多样化的数据集合进行训练。这些数据综合了多种来源：一方面是来自多样环境中的机器人数据，其中涵盖了野外与实验室场景下的演示数据、失败案例数据以及自主生成的数据，并且覆盖了静态与移动、单臂或双臂等不同机器人平台；另一方面则是非机器人数据，包括多模态网络数据以及以自我为中心获取的人类活动数据。LingBot-VLA是当前在单一开源发布中规模最大的模型之一，其训练基于2万小时的遥操作机器人数据。而Rhoda项目则认为，网络视频是捕捉动态物理世界特征最具可扩展性的数据源，因此其系统在数亿小时的网络视频数据上进行了预训练。

尽管上述各团队所采纳的数据策略路径存在显著差异，然而它们似乎正逐渐趋同于一个共同的原则：在当前发展阶段，相较于模型架构的迭代，实现数据规模的有效扩展与确保数据质量的精准筛选，具有更为关键的优先性。

如果我们假定具身AI的扩展遵循与大语言模型相似的规律，那么如何才能触及互联网规模的数据量级来解决机器人学问题？这一挑战的规模是巨大的：正如Ken Goldberg在其著名框架中所指出的，相对于驱动当今大型语言与视觉模型的数据规模，机器人领域面临着高达十万年的“数据鸿沟”。弥合这一鸿沟的关键在于寻找到在实际中可规模化的数据来源。从第一性原理出发，大规模的网络视频是产业界能够利用的最丰富的视觉数据，前提是模型能够学习到良好的动态规律，并将所学迁移至机器人平台。相比之下，遥操作机器人数据在可扩展性上最为受限，这通常是由于其设置成本高昂，且所收集的数据缺乏多样性。介于两者之间的是通过轻量级可穿戴硬件——诸如头戴式或腕戴式相机——所采集的第一人称视角数据，亦称作自我中心视角数据，或是采用通用操作接口（UMI）风格的硬件框架与传感器手套所获取的数据，其能够直接从人类演示中学习，从而避免了使用昂贵的机器人进行遥操作。理想目标是以尽可能少的机器人数据来完成训练，但鉴于当前的机器人策略尚缺乏足够的泛化能力，遥操作在短期内仍难以被取代。

Chelsea Finn在CVPR 2026 Workshop上所展示的最新研究，提供了一个具有指示意义的早期信号。该研究表明，当预训练数据在涵盖的场景与任务种类上达到足够的丰富度时，从人类操作向机器人行为的迁移便开始显现出积极的迹象。更为关键的是，在拥有了足够多样性的机器人专用数据基础之上，通过进一步整合人类视频数据，能够将机器人在那些从未直接观察过的新泛化任务设置中的成功率，提升至接近原有的两倍。研究结果揭示出，模型的性能上限会随着所用数据多样性的增加而同步扩展；然而，该领域目前尚未就何为“足够”多样，或是如何高效地达成这一标准，建立起明确的共识。

世界模型的表示密度分歧

鉴于世界模型仍处于发展的初期阶段，学术界与产业界对于如何最有效地表示给定的世界状态，存在着尚未定论的结构性争论。具体而言，不同的表示方法在抽象层次上存在根本差异，而这一差异直接导致了在建模能力、样本效率、泛化性能、任务对齐度、可解释性以及计算开销等多个维度上产生权衡。目前主流的表示范式主要包括像素级、潜在级以及显式三维几何表示这三大类。

像素级模型直接依赖于原始像素来预测世界状态。其密集的表示方式确保了输出具有照片级的真实感，并能够实现对世界投影的无损保真。然而，这种模型架构容易将优化重点置于像素重建的精确性之上，而非语义信息的重要性，这可能会带来信息冗余。此外，作为逐帧进行预测的视频生成模型，其计算成本往往十分高昂。在应用于具身AI场景时，该模型可能会将大量的计算能力消耗在预测那些实际上对决策过程无关紧要的高频细节上，例如画面背景中树叶的独立摇曳运动。

显式 3D 几何模型将结构置于表示的核心地位：其设计思路并非逐像素地重建场景，而是直接对场景的几何配置进行编码——包括其中各要素的位置、形状与空间关联——从而将其作为模型推理的基础单元。当前该领域内存在若干处于不同抽象层次的方法。粒子方法通过在目标物体上分布密集的离散点来捕捉其表面特征与体积信息；关键点方法则更为精炼，仅保留少量具有语义价值且与任务相关的点位；而物体中心表示则代表了最高层次的抽象，它在相互作用的物体层面对动态过程进行建模。每种方法各自适配于不同的应用场景：物体中心表示尤其擅长处理多刚体操作任务，而粒子方法则能更好地刻画可变形与非刚性物体的行为特征。在静态状态的建模之外，Wenlong 等人提出的 PointWorld 将动作本身表征为 3D 点流，这是一种与具体形态无关的抽象表述方式。我们的投资组合公司 Sancho 采用的是基于粒子的表示方案，该公司发现该方法在计算效率方面表现优异，并且能够实现稳健的长视野导航能力。

潜在级模型的方法是借助潜在空间中的一组紧凑特征对世界进行表示，而这组特征被认为是进行未来预测所必需的。这种表示方式在学习效率、计算效率以及泛化能力方面表现出明显的优势。Yann LeCun长期以来一直是这类潜在级模型的重要倡导者，他在2022年发表的论文中提出了联合嵌入预测架构（JEPA）。该架构将训练目标设定为预测下一个潜在向量，并通过训练专门的编码器来消除那些不利于预测的无关信息细节。由Danijar Hafner等人提出的Dreamer系列研究则表明，智能体能够在这种潜在空间内开展想象，并借此过程学习其行为策略。

为了化解这些结构性争论，一个新兴的研究方向主张突破这些单一表示范式间的固化边界，转而运用多级混合的世界表示方法。在其2026年发表的展望论文中，Jiajun Wu等人提出了一种结构化的马尔可夫世界模型。该模型运用显式表示将世界模型直接构建于基础模型的推理空间之上，从而保持所学概念的可解释性；同时，它又依赖隐式潜在特征来捕捉场景在几何、纹理与物理动态上的丰富、高维复杂性。这种混合方法的核心价值在于，它为构建具备强鲁棒性与泛化能力的世界模型开辟了一条富有前景的研究路径。

总体而言，具身AI在模型架构、数据策略以及状态表示等核心维度上，仍然存在着显著的、尚未统一的技术路线分歧。客观而言，大型语言模型领域在发展初期也曾呈现出类似的碎片化特征——彼时，循环神经网络（RNN）与长短期记忆网络（LSTM）等架构占据主导地位，卷积神经网络展现出应用潜力，而注意力机制则刚刚崭露头角。然而，随着2017年《Attention Is All You Need》这篇论文的发表，Transformer被确立为大型语言模型时代的基石架构，整个领域随即迎来了指数级的快速发展。据此观察，有观点认为，具身AI领域或许同样正孕育着一场类似的技术收敛与范式统一。

“大平行”会成真吗？

在2026年，NVIDIA的Jim Fan提出了“大平行”理论，其核心论断是：具身AI将遵循与大语言模型（LLM）相同的技术增长弧线。其中基础性的第一步，是在统一的预训练范式上实现收敛，这涵盖了模型架构以及数据扩展定律的统一。那么，我们是否会很快见证预训练范式上的这种收敛呢？如果答案是肯定的，其收敛的进程又将呈现出怎样的节奏？

我们观察到，两类关键的结构性障碍，使得具身 AI 难以实现与大语言模型类似的预训练范式收敛。

瓶颈一在于该领域尚未建立起一套共享且成熟的评估系统。

LLM 技术路线之所以能够实现收敛，部分原因在于 Arena AI 等基准测试平台为整个研究社区提供了一套标准化的评测体系。然而，具身 AI 领域由于面临一系列结构性挑战，至今尚未形成等效的机制。首先，该领域缺乏明确且公认的基本事实。机器人所具备的形态与任务类型相较于语言领域展现出更为丰富的多样性，而且评判成功的标准往往是模糊的：如果两台机器人以不同方式完成了物体的拾取与放置，两者的表现难以明确判定孰优孰劣，同时，也不存在一个单一指标能够全面地衡量系统的泛化能力。其次，尽管在真实世界中进行测试仍然是评估系统性能的黄金标准，但其成本高昂且无法大规模扩展。第三，大多数现有基准仅评估机器人所能执行的原子操作，例如拾取特定物体或在已知地图中进行导航。这便产生了一种基准过拟合的动态：社区会专门针对已知的评测标准来迭代优化模型，从而导致性能指标的虚高，而未能真正提升底层的泛化能力。

随着对更具可扩展性的模拟基准的需求呈现出不断增长的趋势，但仿真环境与真实世界之间的差距依然显著存在，因此必须依赖于人工干预的努力来改善模型的泛化能力。一个尤为值得关注的研究方向是 Sherry Yang Lab 所提出的 WorldGym，它作为一个基于世界模型的策略评估环境，被设计用于替代成本高昂的真实世界机器人测试。RoboArena 则是于 2025 年发表的另一个具备发展前景的方法。其核心洞察借鉴自 LLM 评估体系（例如 Chatbot Arena），并非依赖固定基准，而是采用了众包的双盲对比机制。然而，该方法受限于 DROID 平台硬件的约束，从而对参与者的范围造成了限制，同时，与成熟的 ML 基准相比，其任务覆盖范围仍然非常有限。本文持有观点认为，在评估体系趋于成熟且基准到部署之间的性能差距显著减小之前，模型分歧将作为一种理性的均衡状态存在。

瓶颈二：该领域的资本结构对技术路线的分歧起到了主动维持的作用。

AMI Labs 以 JEPA/潜在空间理论为基础获得了 10.3 亿美元的融资。World Labs 则基于显式 3D 表示技术完成了 10 亿美元的融资。Rhoda 依赖于其直接的视频-动作模型成功融资 4.5 亿美元。Physical Intelligence 运用 VLA 架构实现了 6 亿美元的融资。这些公司都拥有数年的发展空间使其理论得以充分演进，而市场压力并不会迫使它们立即做出选择，同时它们也缺乏去开源任何研究进展的激励。

收敛的早期信号

尽管从结构性层面而言，分歧被认为会长期存在，但收敛方面也已出现早期信号。

在基于视频生成的世界模型领域，扩散与自回归的混合模型已成为一种常见方法。在架构层面，该领域在历史上曾同时追求扩散与自回归这两种生成骨干。扩散模型现已发展为现代视频生成领域的主要骨干架构，因为其迭代去噪的过程能够自然地对连续且时间连贯的输出进行建模。另一方面，自回归方法则因其强因果建模能力、支持高效的树搜索推理以及灵活的视野训练能力而受益。然而，该方法会受到误差传播问题的困扰，因为它必须以自身不完美的预测作为生成条件。为了调和扩散与自回归这两种路径在建模上的差异，混合架构正变得越来越普遍。在NeurIPS 2025世界模型工作坊上，Yilun Du指出，诸如 Diffusion Foring 等方法为每个 token 分配了独立的噪声级别，这允许模型对近未来进行更充分的去噪，而对远未来则保持其相对噪声的状态。最终得到的概率序列模型既具备下一 token 预测的灵活性，又能借助全序列扩散实现长视野的引导。

在探讨实时控制领域时，分层系统架构仍然是一种切实可行的解决方案。这种框架结构类似于卡尼曼提出的双过程认知理论：其中快速的系统1负责生成那些反应性的动作，而较慢的系统2则专门负责处理那些需要深入语义分析、长远视野推理以及周密规划的复杂任务。推动这一技术路线趋向统一的因素主要有两方面。首先，语义层面的规划与底层运动执行之间存在着根本性的计算频率差距。鉴于当前的算力限制，在大众化硬件平台上，要同时处理如同互联网规模般庞大的先验知识库，并完成高达200 Hz的控制回路闭环，这在实践上是难以实现的。其次，分层系统通过模块化的设计，实现了跨不同机器人形态的泛化能力。其中，高层的推理逻辑与通用的运动规划在不同机器人身体之间具有很高的复用性，因此抽象的上层架构可以被共享；而针对特定形态的优化与调整则集中在下层，专注于解决具体的操作问题与关节控制细节。然而，与之相对的观点则来自端到端模型。这类模型的定义特征在于，它们通过一次性的梯度传递过程来训练整个网络，从而避免了在那些分别训练的各层接口处可能引入的信息损耗。