世界模型赛道洗牌，一家中国公司悄然领先

机器人大讲堂

2026年06月05日 14:53

本文共计3253个字，预计阅读时长11分钟。

来源/机器人大讲堂责编/huazi56 爱力方

2026年5月，全球具身世界模型领域的权威评测基准WorldArena公布榜单。跨维智能自研的通用具身世界模型DSCFuncWorld，在Track 2 Data Engine赛道斩获全球第一，大幅领先WoW、BLM等国际主流模型，并刷新该赛道的全球最优成绩，再一次证明了跨维智能的底层技术实力已稳居全球具身世界模型第一梯队。

全球第一究竟意味着什么

WorldArena之所以备受关注，在于其不仅包含由16项细分核心指标和3大真实应用任务构成的立体化评估体系，能够对具身世界模型的感知精度、物理规律理解、三维空间认知以及动作预测与实际落地能力进行全方位且严苛的考察。同时，其评测标准也足够严格、全面并贴合产业落地，因此汇聚了全球顶尖科研团队与头部企业模型同台比拼。前不久智元刚刚拿下track1的第一名，其含金量已获业内一致认可，由此也可见榜单的热度与权威性。

WorldArena设有两条核心赛道，其关注重点以及能力定位存在一定差异。其中，Track 1更加偏重视觉画面质量、动态效果以及物理一致性，所强调的是感知能力的上限；而Track 2则主要考验世界模型作为数据合成引擎与行动规划载体时的全链路落地能力，要求参赛模型依据初始场景和文本指令，自主模拟完整的机器人交互流程，并最终把机器人真实任务的成功率作为核心判定标准。

这两条赛道所代表的，其实是世界模型的两种不同哲学。一种更强调画面的逼真程度以及感知能力的完备性，另一种则更强调合成数据对于机器人策略训练的实际赋能效率。前者本质上是一场感知竞赛，后者则更接近产业竞赛，更关注模型所输出的数据能否驱动机器人在现实世界当中真正完成任务。

Track 2也被业内普遍视为含金量更高的实战赛道，这一判断有一组学术数据作为支撑。2026年2月，清华等机构联合发布的WorldArena论文，对14个代表性世界模型开展了系统测量，涵盖Veo 3.1、Wan 2.6、CogVideoX以及Cosmos-Predict等主流模型，用以分析视觉质量与下游具身任务能力之间的关系。所得结论相当直接：综合视觉质量指标EWMScore与人类主观打分的相关性高达Pearson r=0.825，但其与机器人任务成功率之间的相关性仅为r=0.360。视觉和美学分最高的Veo 3.1，在具身任务指标上的提升反而有限，同时还伴随着明显的语义漂移。

这意味着，生成结果的视觉质量与机器人任务成功率之间并不存在必然的正相关关系；一个视频生成能力即便再强的模型，也可能无法产出任何一条真正可用的机器人训练数据。这一点也进一步解释了，为什么跨维智能此次胜出所体现的价值，已经明显超出了单次榜单成绩本身的意义。

02.

DexWorldModel模型底座到底强在哪？

跨维智能之所以能够在 Track 2 登顶，本质上在于其围绕具身数据生成、仿真训练闭环、策略赋能以及虚实迁移等全链路环节，成功构建起了一个完整的工程化闭环。

机器人大讲堂获悉，此次夺冠的DSCFuncWorld，实质上是跨维自研核心底座DexWorldModel的适配版本，而非面向此次竞赛进行专门定制的模型。

支撑其在Track 2取得领先的技术逻辑，主要在于这套闭环持续积累了「可训练、可迁移、可执行」的系统性机器人动作数据，从而补齐了世界模型通往真实物理世界过程中的关键短板。由于其采用因果隐空间建模，并依托DINO语义特征空间来精准建模未来世界状态，因此重点强化了环境纹理、物体关联以及物理规则的鲁棒表达。与绝大多数同类模型试图在视觉像素层面对未来画面进行拟合不同，DexWorldModel选择在隐空间中直接建模“对行动有意义的状态”，并把模型容量集中配置在与任务决策强关联的信息通道上。

从技术架构的拆解来看，DexWorldModel构建了一个由四层协同组成的体系。

在表示层，其把生成目标由像素空间切换到DINO语义特征空间，从而使模型需要回答的问题转化为「状态预测」；在推理层，预测式异步推理（SAI）把机械臂执行与模型推理实现深度重叠，使实测端到端阻塞延迟下降约50%；在数据层，EmbodiChain具身数据链构建起覆盖资产生成、轨迹采样以及失败恢复回流的全链路数据供给体系，持续为世界模型训练注入具备物理可信性的新鲜经验。在架构层，EVA技术框架则借助逆动力学奖励机制，把可执行性约束内嵌到生成过程本身，从而确保模型推演出的未来轨迹不仅在视觉上自洽，也更贴近真实机器人可完成的动作路径。

这套模型架构，正是跨维在Track 2数据引擎任务中得以取得领先的技术关键；也可以说，也正是Track 2，才真正让跨维智能的DSCFuncWorld模型在这一评价坐标系当中找到了自身的发力点。

03.

这不是跨维第一次站上榜首

跨维智能在世界模型以及具身智能方向一直都保持着深厚的技术积累。

例如，在以机器人任务成功率作为核心评价维度的RoboTwin仿真基准中，DexWorldModel曾取得94.00%的平均成功率，并超过同期多项国际主流基线。

更具说服力的是零样本Sim2Real结果：模型仅在仿真环境中完成训练，随后直接部署到四个真实机器人任务之上，便取得了优于π0、GR00T N1.5以及Sim2Real-VLA的成绩。而在进一步的工作中，还运用了真机示范数据进行微调，以提高准确率。

在当年于美国举行的全球顶级机器人大赛ICRA现场，跨维的双臂机器人借助自研大模型以及纯视觉系统，独立完成了硅胶柱安装、透明试管操作等精细作业，成为全场唯一无需人工干预的参赛者，并最终斩获世界冠军。这也构成了该技术路线在权威赛事中的首次顶级验证。

跨维还将具身智能数据基建EmbodiChain予以完整开源，开放资产生成、场景布局、轨迹采样、失败恢复以及在线数据流等全套模块；同时发布GS-World世界模型技术方案，由此形成从合成数据生产到策略模型训练的完整研究路径。

在商业化层面，跨维智能已把具身智能解决方案落地到50余个细分行业以及超千个项目之中。其中，海信生产线柔性插拔装配机器人的成功率达到99.99%，美的工厂无序零件分拣机器人的效率为人工的3倍，这些数据均来自量产交付现场，而非实验室Demo。也正因如此，其在2024年整体营收突破亿元，并于2025年推动人形机器人W1 Pro批量出货超百台，客户涵盖比亚迪、广汽、中联重科、三一重工以及松下等头部制造企业。

此外，跨维一直在尝试直接构建面向物理交互数据的世界模型体系，使合成数据与多种真机数据共同纳入训练流程，以协同驱动机器人策略训练，数据闭环已初步搭建完成。

从 RoboTwin 斩获第一、ICRA 夺得冠军，到此次 WorldArena Track 2 实现全球登顶，这一系列重磅成绩的背后，是跨维智能依托 DexWorldModel 范式所走出的一条差异化技术路线。不同于行业普遍聚焦概念创新，跨维智能始终直面具身智能落地过程中最核心、最关键的系统性难题，专注于解决真实部署中的核心阻碍，并优先搭建能够支撑产业落地的底层系统能力。DexWorldModel 正是这一务实思路下形成的阶段性技术成果，其在一步步补齐技术与现实之间关键短板、持续缩小落地间隙的过程中，使世界模型距离真实机器人部署以及规模化产业应用更近一步。

04.

下半场的真正分水岭

不久前，英伟达发布了面向物理AI的开放基础模型Cosmos 3，谷歌DeepMind也把Project Genie推进至公共测试阶段。这些进展共同释放出一个明确的产业信号：世界模型的价值定义正在发生根本性重构，正在告别过去以画面生成效果为核心的单一评判标准，转而进入一个以贴合真实物理规则、服务实体机器人落地为核心的新赛道。

这也意味着，在下半场，能否锚定真实世界的运行逻辑，并把虚拟仿真与现实应用之间的边界真正打通，正在成为衡量世界模型价值的核心标准。行业竞争的重心，也由浅层视觉生成的内卷，转向对底层物理智能能力的长期比拼。

来源：世界模型赛道洗牌，一家中国公司悄悄冲到了最前面 | 机器人大讲堂

声明：本文来自机器人大讲堂，版权归作者所有。文章内容仅代表作者独立观点，不代表爱力方立场，转载目的在于传递更多信息。如有侵权，请联系 copyright#agent.ren。