智元GE 2.0登顶WorldArena：机器人在虚拟世界中学会进化

2026年05月31日 16:33

本文共计3886个字，预计阅读时长13分钟。

来源/机器人大讲堂责编/huazi56 爱力方

具身智能大讲堂从评测中获悉，5月29日，具身智能评测榜单WorldArena Track1公布了最新结果，智元自研的世界模型Genie Envisioner-Sim 2.0（简称GE 2.0）凭借其卓越的综合表现，成功登上了榜单的榜首。该赛道旨在评估感知与动作响应能力，这成为了判断通用人形机器人智能化水平的核心指标。

智元方面选用的是未经针对性优化的原生版本GE 2.0，并未专门针对本次评测的具体赛道要求进行深度的适配或调整，仅是依托于榜单已有的公开数据，实施了基础性的参数微调操作。在如此“轻量级”的准备条件下依然能够位列榜首，这一结果有力地证明了该模型所具备的广泛场景适配能力与强大的基础泛化性能。

世界动作模型与世界模拟器这两项技术，正在从根本上改变机器人训练的传统范式。

2025年，智元发布行业首个世界模型开源平台Genie-Envisioner之际，其初衷在于促使机器人实现对世界的“理解”，即借助对视觉、语言及动作的统一建模，来达成环境感知。而今，该领域已历经更为深刻的演进：目标并非仅仅让机器人理解世界，而是使其能够在世界中进行学习、实现成长、完成进化。即便这个世界本身是由模型所构建的。

智元的世界模型沿着两条主要的技术路径展开：其一是世界动作模型，该模型专注于对动作表征开展深度建模；其二是世界模拟器，其核心任务在于构建一个具备可交互、可推演以及可训练特性的完整环境。从专注于动作的“世界动作模型”到致力于构建环境的“世界模拟器”，这项技术实现了本质性的升级：其目标已从描述世界，进一步演化为成为世界本身。

当模型所构建的世界具备足够的真实性、稳定性与高效性，能够像现实环境一样精确响应机器人的每一项动作时，机器人便可在该模型世界之中开展大规模的训练、试错以及迭代过程，从而使其在真实世界中所需的试错成本得以大幅降低。这正是从对世界进行表征，迈向成为世界本身的关键一步。

PART 02

使世界模型具备对"动作"的理解能力：智元如何实现状态－动作－演化这一闭环的贯通？

机器人面对的世界处于持续变化之中，动作不仅仅被视为一种输出，更是直接影响环境演化进程的核心变量。传统世界模型主要针对“状态”进行建模，而智元则着力推进世界动作模型（World Action Model，简称WAM）这一技术方向，其核心问题在于：如何让世界模型得以理解“动作”这一关键变量。具体而言，机器人执行了何种动作？该动作如何引发世界的改变？而世界又如何将这些变化反馈至策略层面？智元将“状态—动作—状态演化”这一序列构建为统一的建模对象，从而使世界模型能够成为策略学习与动作生成所依赖的基础表示层。

围绕这一技术方向，智元成功构建了EnerVerse，将具身场景有效拓展为可计算的4D世界模型；推出了Genie Envisioner Act（GE-Act），实现了从世界表征向动作轨迹生成的转变；借助Act2Goal使机器人得以实现目标驱动的长程控制。这些探索使得世界模型首次具备了承载动作策略的能力。

然而，真正的突破并不仅仅局限于强化世界模型本身的表征能力，其更为关键的演进方向在于世界模拟器所具备的深层能力。世界模型的功能并非仅限于对世界进行描述，而是要致力于成为一个能够被使用、进行交互并开展训练的世界本身。若能够构建出一个足够高质量的世界模型，那么在这个生成的世界之中行动的策略，也就可以得到更为有效的训练。

在此基础上，智元在强化世界动作模型的建模能力的同时，亦同步推进世界模型向具备可交互特性的模拟器能力发展。首先，通过EnerVerse-AC引入动作条件的世界建模（action-conditioned world modeling），使得模型能够基于给定的动作对未来状态进行推演；随后，通过GE-Sim 1.0构建出可用于策略闭环评估的神经模拟器；与此同时，借助EWMBench从场景一致性、动作正确性以及语义对齐等多个维度，对世界模型的模拟能力实施了系统性的评估。

更为重要的是，一套全新的数据与训练范式也随之建立。在Fidelity-Aware Data Composition当中，真实数据与生成数据得到了精细化的组合，使得策略训练既能够具备真实性，又拥有更强的泛化能力；Real2Edit2Real流程则让真实数据不再仅仅是被动地采集，而是成为了可被模型进行扩展与编辑的基础素材，从而显著提升了数据的规模以及多样性。

至此，世界模型完成了一次本质性的跃迁，从原本的表征模型，成功演进为了具备环境级能力的系统基础设施。

PART 03

GE 2.0：一个可以“运行”的具身世界

在上述这一系列技术演进的基础之上，智元于今年4月正式发布了GE 2.0。它不再仅仅是一个生成模型，而是成为了一个可以被实际使用的系统，一个真正意义上的"可操作世界"。

在这一技术路径下，世界模型的运行范式开始从被动响应转向由动作主动驱动。GE 2.0能够严格响应机器人所发出的动作指令信号，从而生成具有高度保真度的环境变化，并严格地遵循物理规则以及语义逻辑。这意味着，世界不再是一个被动想象、无法被直接干预的静态背景，而是一个能够被机器人行动所持续塑造和推进的动态过程。

通过模型所具备的能力，零散的时间片段能够被整合并延展为一个完整的任务序列。这使得模型能够实现分钟级别的长时间稳定推演，从而完成了从零散视频片段到完整任务过程连续生成的过渡。

空间被整合为具身化的体验。通过将多视角视觉信息、跨视角的三维一致性数据以及机器人本体状态（proprioception）纳入同一个建模框架进行统一表征，使机器人所处理的信息从单一的视觉画面，转变为一个完整的、可供其进行交互的具身世界。

模型开始具备了“判断能力”。内置的激励模型（General Reward Model）使得模型首次具备了自评估能力。它能够基于文本对生成状态进行自动评估与优化，而无需人工激励的训练，从而可以完成强化学习（RL in World Model）。训练闭环第一次真正被内嵌进了模型世界本身。

系统架构实现了从离线向实时的转变。随着推理效率的持续提升，GE 2.0现已能够接近实时地运行，支持Eval in WM、RL in WM以及Teleoperation in WM均可直接在模型世界内部完成。世界模型已不再停留于离线工具的范畴，而是成为了能够进行实时交互的系统环境。

PART 04

能够试错、得以迭代、持续进化：虚拟仿真环境如何反哺策略优化？

相较于前代版本，GE 2.0的提升并不仅仅局限于单点性能的飞跃，而是进一步演进成为一个功能完备且具备高可用性的世界模拟器。它能够构建出允许试错、支持迭代并能够持续进化的虚拟仿真环境，使得机器人策略得以在虚拟场景中自主积累经验、完成动态试错，从而规避在真实场景中进行试验所需付出的成本。最终，这些经由虚拟环境验证的策略可以高效地迁移至真实的物理世界并实现稳定落地，由此真正完成从“感知与预测”到“仿真进化与自主决策”的闭环升级。

功能矩阵实现了全面补齐。GE 2.0首次实现了对长时序生成、多视角生成、本体状态生成、近实时推理以及奖励判别等核心环节的全面覆盖，由此成功构建起世界模拟器完整的、端到端的技术能力闭环。

在长时序推理任务方面，GE 2.0展现出卓越的稳定性，其画面质量随推理时长的衰减程度明显低于行业基线方案。即便是在连续推演40至50秒的长视频片段时，该模型的生成质量依然能够超越基线模型在最初10秒内的表现。

高可靠的闭环评测。作为世界模拟器，其核心关键在于能否真实地反映物理世界的运行规律。团队对大量的闭环评测结果开展了系统性的验证工作，证明GE 2.0在多项任务上均与真实世界保持了较强的相关性。这种相关性并非仅仅停留在宏观统计层面上的"成功率保持一致"，团队还对逐案（Case-by-case）的rollout结果进行了对比分析，并借助混淆矩阵（Confusion Matrix）提供了严谨的量化佐证，强有力地证明了GE 2.0作为策略评测器所具备的可靠性。

借助奖励模型（Reward Model）所提供的能力，GE 2.0能够对闭环评测中所产生的rollout过程进行自动化筛选，从而把在世界模型运行过程中产出的有效且高质量的数据，精准地回流至策略模型（Policy Model）。实验结果证明，这一数据回流与反哺机制，在多项任务上都帮助策略模型实现了显著的性能提升。

PART 05

结语与未来

世界动作模型与视觉-语言-动作模型实现深度融合，推动机器人策略从被动响应环境的反应式控制，演进至能够预判未来态势、规划全局路径的生成式决策。世界模拟器所构建的虚拟训练场，则为机器人提供了大规模试错与反复优化的环境支持。

当世界动作模型赋予机器人理解并驱动环境演化的主动能力，同时世界模拟器为其构建出能够安全试错与迭代的虚拟空间时，这两条技术路径得以实现深度交汇。在此交汇点上，机器人不再仅仅是依赖于人类示教数据进行模仿性执行的被动“执行者”，而是进化为能够在模拟世界这一数字基底上，通过交互式探索自主发现策略、实时修正误差并持续突破性能上限的主动“学习者”。其能力边界，正经历着从被动模仿到主动进化这一根本性的重新定义。

Project homepage: https://ge-sim-v2.github.io/

Arxiv: https://arxiv.org/abs/2605.27491

Github: https://github.com/AgibotTech/GE-Sim-V2

来源：智元GE 2.0登顶WorldArena：机器人如何在虚拟世界中学会进化？ | 机器人大讲堂

声明：本文来自机器人大讲堂，版权归作者所有。文章内容仅代表作者独立观点，不代表爱力方立场，转载目的在于传递更多信息。如有侵权，请联系 copyright#agent.ren。

TAGS: []

通知

尊敬的用户

user

资讯

智元GE 2.0登顶WorldArena：机器人在虚拟世界中学会进化

智元GE 2.0登顶WorldArena：机器人在虚拟世界中学会进化

相关图文

这次AI热潮如何走向终局？褪去滤镜，别让故事战胜估值

Meta开始卖算力，机构的AI信仰变了吗？

“BAT”历史性同台！30亿美元“弹药”落定，可灵立下的5年IPO军令状，藏着资本对AI视频赛道的耐心上限

AI时代Token成为“统一度量衡” 业内呼吁合力解决计费不透明等问题

八部门推动工业互联网和算力基础设施同步建设宇树科技IPO注册获批

直击慕尼黑上海电子展：云端AI加速下沉至端侧

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

多家银行信用卡近期花式上新，发布算力卡并力推境外金融服务，中高端客群仍是拓新重点

7款手机端侧大模型获备案，苹果Apple智能在列，阿里、百度提供支持

苹果AI完成国内备案，千问与百度分工合作侧重不同

全球科技股大涨带动奢侈品行业受益，历峰集团季度营收表现强劲

国行版苹果AI完成备案，知情人士称百度将参与合作，为中国 iPhone 用户开发搜索功能并升级中国版 Siri 语音助手

努比亚率先完成智能体大模型备案，全球首款AI智能体手机即将亮相

知网：已对将DeepSeek等AI列为作者的论文作下架处理

DeepSeek或冲刺IPO，估值超4800亿元，梁文锋或成AI圈新首富

热搜：AI生成的书法作品获二等奖，当地官方回应称已从获奖名单中撤除

诺基亚联合英伟达推出AI-RAN商用平台，未来基站将发生哪些变化？

推荐专栏

爱力方

机器人大讲堂

下一篇

user

资讯

智元GE 2.0登顶WorldArena：机器人在虚拟世界中学会进化

智元GE 2.0登顶WorldArena：机器人在虚拟世界中学会进化

相关图文

这次AI热潮如何走向终局？褪去滤镜，别让故事战胜估值

Meta开始卖算力，机构的AI信仰变了吗？

“BAT”历史性同台！30亿美元“弹药”落定，可灵立下的5年IPO军令状，藏着资本对AI视频赛道的耐心上限

AI时代Token成为“统一度量衡” 业内呼吁合力解决计费不透明等问题

八部门推动工业互联网和算力基础设施同步建设 宇树科技IPO注册获批

直击慕尼黑上海电子展：云端AI加速下沉至端侧

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

多家银行信用卡近期花式上新，发布算力卡并力推境外金融服务，中高端客群仍是拓新重点

7款手机端侧大模型获备案，苹果Apple智能在列，阿里、百度提供支持

苹果AI完成国内备案，千问与百度分工合作侧重不同

全球科技股大涨带动奢侈品行业受益，历峰集团季度营收表现强劲

国行版苹果AI完成备案，知情人士称百度将参与合作，为中国 iPhone 用户开发搜索功能并升级中国版 Siri 语音助手

努比亚率先完成智能体大模型备案，全球首款AI智能体手机即将亮相

知网：已对将DeepSeek等AI列为作者的论文作下架处理

DeepSeek或冲刺IPO，估值超4800亿元，梁文锋或成AI圈新首富

热搜：AI生成的书法作品获二等奖，当地官方回应称已从获奖名单中撤除

诺基亚联合英伟达推出AI-RAN商用平台，未来基站将发生哪些变化？

推荐专栏

爱力方

机器人大讲堂

下一篇

八部门推动工业互联网和算力基础设施同步建设宇树科技IPO注册获批