AGIBOT WORLD CHALLENGE@ICRA 2026收官 聚焦具身智能能力考核

2026年06月06日 20:02
本文共计5119个字,预计阅读时长18分钟。
来源/机器人大讲堂 责编/爱力方

近日,AGIBOT WORLD CHALLENGE@ICRA 2026在奥地利维也纳完成了R2A赛道的线下总决赛环节,整个赛事依照线上选拔以及线下落地两个阶段有序推进,并已顺利收官。

这是智元机器人依托ICRA即国际机器人与自动化会议举办的具身智能竞技赛事,共吸引来自27个国家及地区的526支队伍参赛,参赛阵容覆盖中科院、清华大学、中国科学技术大学、加州大学圣迭戈分校、俄罗斯Sber Robotics Center,以及阿里、高德、vivo等产业机构,且有超过百支队伍成功突破官方基准线。

一套对具身智能评测逻辑进行重新定义的赛制

ICRA作为机器人领域公认的顶级国际学术会议,每年都会吸引全球顶尖研究团队进行投稿并参会。智元把AGIBOT WORLD CHALLENGE纳入ICRA官方体系当中,这也使其明显区别于普通校园赛以及纯仿真赛,原因在于后两类赛事普遍缺乏真机验证环节,因此其评测结果与产业部署之间的相关性相对有限。

这一定位同样体现在赛道的具体设计之中,赛事围绕两条核心赛道展开设置,即R2A即Reasoning to Action推理-操作,以及WM即World Model世界模型。前者面向机器人的全链条任务执行能力来开展考察,后者则把重点放在世界模型的训练与评测范式之上。这两个方向共同指向业界公认的两大核心技术瓶颈,也就是机器人能否真正理解并执行开放式任务,以及模型能否对物理世界建立准确且可泛化的预测。

R2A赛道相较去年版本已经有了明显升级。此前的评测框架更偏向于对单一动作执行准确率的考察,而此次则被重构为“环境理解—任务规划—动作执行”的完整链条,考核维度也进一步扩展到开放词汇理解、真实物理场景中的稳健交互,以及长程任务泛化这三个层面,因此对参赛团队综合技术储备提出了更高要求,同时也更接近机器人真实工作场景所具有的复杂度。赛道依托Genie Sim 3.0开源仿真平台以及AGIBOT WORLD开源数据集完成验证。

WM赛道的设计则直接对行业惯例提出了挑战。传统世界模型评测通常倾向于运用理想化的仿真数据,这类数据往往具有轨迹规整以及物理行为可预测的特点。本届赛事则刻意引入了“空抓”“掉落”等非理想物理轨迹样本,而这些在真实操作过程当中频繁出现的失败动作,在以往的评测体系之中往往会被过滤掉。将这类数据纳入训练与评测环节,实质上是在要求模型具备处理真实世界不确定性的能力,而不是仅仅在受控环境下获得更高分数。WM赛道基于EWMBench评测基准,从三个核心维度对世界模型开展了全方位考核:图像质量(Visual Quality)用于评估生成画面的精细度与清晰度;场景一致性(Scene Consistency)则把重点放在物体于时间与空间维度上的连贯性,以确保场景中的物体不会凭空消失、发生异变或出现错位;轨迹遵循度(Action Following)用于衡量模型对给定动作信号的响应准确度,重点关注生成画面中的动作是否合理,以及是否符合输入的动作条件。

WM赛道率先完成了全部比拼。由中科院自动化所联合高德 CV Lab 共同组建的 NeoVerse-ABot 团队获得冠军,中科院工业人工智能研究院的 PAI@IAII 团队以及中科大的 Loop 团队分别位列亚军与季军。前三名均来自学术机构或产学联合团队,这在一定程度上反映出,现阶段世界模型技术的核心攻关力量仍然主要集中在科研侧。

Reasoning to Action(R2A)赛道在维也纳完成了线下收官对决,赛道考核也由单一动作执行,进一步拓展至环境理解、任务规划以及实体操作的全链条能力,并聚焦于弥合从仿真到真机落地之间的鸿沟。最终,来自vivo的PrismBot凭借在四个场景任务中的稳定发挥获得冠军,来自上海萝博派对的RP-VLA获得第二,在线上赛段持续领跑的俄罗斯团队GreenVLA获得季军。

02.

Sim2Real鸿沟:产业落地的真正卡点

Sim2Real Gap——算法在仿真环境中完成训练后,一旦部署到真实机器之上,其性能便会出现显著下滑。这一问题并非新近出现的话题,但在具身智能迈向商业化落地的当下,它已经从学术层面的技术挑战,进一步演变为制约行业落地速度的现实障碍。

造成这一鸿沟的原因具有明显的多层次性:仿真环境难以对真实世界中的物理摩擦、光照变化、物体形变以及操作误差进行完整复现;与此同时,仿真数据通常过于“干净”,因而缺少真实场景当中普遍存在的噪声以及失败样本。除此之外,硬件个体之间的差异,以及环境干扰因素,也很难在仿真体系之中被精确建模。

这些偏差在持续累积之后,会进一步导致仿真评分与真机表现之间形成系统性的落差。业内对于“刷仿真分数”的质疑其实由来已久,部分团队虽然借助大量仿真迭代取得了看似漂亮的评测数字,但一旦切换到真机环境当中,整体表现便会出现大幅下滑,进而使学术成果难以直接转化为产品能力。

本届赛事在规则设计层面直接回应了这一问题。在硬件层面,组委会要求晋级线下决赛的参赛队伍统一选用精灵G2机器人作为真机参赛平台,由此排除了硬件差异对成绩造成的干扰,使算法能力成为唯一变量,同时也确保了不同团队之间的成绩具备横向可比性。

大赛同期,智元还联合Dexmal原力灵机共同打造了行业首个面向真实商超场景的全链路决策评测赛道,以进一步验证真机落地能力。该赛道把考场直接设置在高度还原的真实商超环境之中,直指行业在全身控制(Whole Body Control, WBC)方面的核心痛点。模型需要直接应对货架层高限制、物品随机摆放等不可控的物理复杂性,并完成从自主导航、精细化取货到行走放置的完整移动操作全序列,从而彻底摆脱单一抓取Demo式的能力展示。整个过程统一采用API远程直连模式,选手代码能够直接驱动真实物理机器人完成实测,由此为具身智能全身控制能力提供了真实的落地标尺。

评测标准层面,赛事把重点放在真机稳定性、物理一致性以及长程任务可靠性之上,而不是仿真跑分。这套规则设计的底层逻辑在于:仿真结果必须能够在真机上得到验证,否则相关评测数字对于产业决策而言并不具备参考价值。

03.

让全球团队能够站在同一起跑线上的工具链

智元在本届赛事中同步配套推出了Genie Sim 3.0仿真平台以及AGIBOT WORLD开源数据集,并结合统一的真机硬件平台,共同构成了“数据集+仿真平台+硬件真机”三位一体的全链路体系。

Genie Sim 3.0采用了与真机数据同源的设计思路:仿真环境中的物理参数、传感器模拟以及交互逻辑,均与真机采集数据保持对齐,其目标在于压缩从仿真到真机部署过程中的性能衰减。赛事同步发布了EWMBench和Genie Sim Benchmark两套评测基准,其中Genie Sim Benchmark具备多维度、全方位的仿真评测功能,覆盖机器人算法核心的五大能力,即语言指令理解、空间关系认知、原子技能操作、环境扰动适应和零样本跨域迁移。两套基准主要强调评测流程的自动化、指标的标准化以及结果的可复现性,从而使不同团队的成果具备横向对比的基础。

在公平性保障机制方面,EWMBench采用全流程自动评测机制,以消除人为主观干预;榜单会进行实时滚动更新,在无排队的情况下10分钟内即可产出结果;赛事期间,细分指标不对外公开,仅展示总分的“指标盲盒”机制,从而有效规避了围绕指标漏洞开展的定向hack;与此同时,每日提测次数限制也进一步杜绝了过拟合式刷分行为。

在数据集层面,WM赛道依托AGIBOT WORLD百万真机开源数据集,构建了一个由10类不同任务组成的训练集,其中涵盖超过3万条真实轨迹,覆盖抓取、放置、推、拉等多种机器人与环境之间的交互类型。测试集不仅包含专家轨迹,还纳入了空抓、碰抓、掉落等不完美动作轨迹,旨在考察模型对动作信号的跟随能力以及对物理属性的模拟能力,而这也正是多数现有评测基准长期存在的盲区:其往往只包含完美轨迹,因此无法检验模型在分布外Out-of-Distribution,简称OOD情形下,能否忠实跟随动作信号,并对非理想操作条件下物体的真实物理属性进行模拟。

对参赛团队而言,这套工具链所体现出的直接价值,在于能够有效降低进入这一领域的门槛。长期以来,开展具身智能研究往往伴随着较高的前期要求,通常需要自建数据采集体系、自购或借用机器人硬件,并自行完成仿真环境的搭建。对于高校实验室或者处于早期阶段的创业团队来说,这类前置投入本身就会构成相当明显的资源壁垒。全链路开源工具链的存在,使更多并不具备重资产条件的团队得以参与技术竞争,同时也在客观上为行业储备了具备真机实操经验的技术人才。

从526支参赛队伍的来源结构来看,27个国家和地区当中还包括俄罗斯、东南亚等机器人研究资源相对有限的区域,这种覆盖范围在一定程度上反映出,统一开放工具链在降低参与门槛方面已经产生了实际效果。

工具链与统一硬件平台在形成生态之后,其长期效应在于,会把全球开发者以及科研团队的技术积累持续沉淀到同一套基础设施之上。随着使用规模的不断扩大,平台所获得的数据反馈以及标准层面的影响力也会同步增强,而这一点也与智元对于这套体系所作出的定位保持一致。

04.

具身智能的评测话语权之争

智元合伙人、高级副总裁姚卯青在赛事期间表示,希望借助赛事推动行业形成“可验证、可落地”的技术共识,并让具身智能真正走进现实世界。这句话背后所指向的,实则是具身智能评测标准的话语权问题。

过去几年,具身智能领域的评测体系一直呈现出较为分散的状态。不同机构分别选用不同的仿真平台、任务设计方案以及评分口径,由此使得横向比较几乎难以真正开展。某支团队即便声称在某项任务上取得了显著进展,外部也往往难以判断这一成果究竟能够在多大程度上泛化至其他场景,或进一步迁移到真机之上。评测体系的这种碎片化局面,在客观上也拖慢了行业围绕技术方向形成共识的整体速度。

智元借助ICRA这一顶级学术会议所形成的背书,以及EWMBench、Genie Sim Benchmark两套自研评测基准的推出,试图在评测标准层面建立一套可供整个行业参照的坐标体系。ICRA本身所具备的学术认可度,则进一步确保了这套标准在国际研究社区当中拥有较高的初始接受度。

EWMBench把重点放在Action-conditioned World Model这一细分赛道之上。相较于主流的视频生成基准,它更加关注物理世界中的具身交互理解,并且在人类主观判断一致性方面表现更优。其差异化价值在于,这一基准并不追求通用视频生成任务中的视觉保真度或语言对齐能力,而是围绕机器人操作视频所具有的特殊结构约束来进行设计。在这一场景之中,背景布局、物体配置以及具身结构都应当保持不变,只有机器人的姿态以及交互会随指令发生变化。这样的设计,使其能够更为细致地反映世界模型在机器人操作过程中的真实表征保真度与实际效用,而不是停留在视觉层面的表面评分。借助引入真机中的不完美轨迹,评测也因此更贴近世界模型在实际部署过程中的真实使用场景,而非停留在受控环境下的理想化表现。

一套标准能否真正获得行业采纳,仍然取决于几个关键条件:其一,标准自身能否随着场景复杂度的提升而持续迭代;其二,能否吸引更多独立机构以此为基础开展研究;其三,能否让产业方认可评测结果对于实际部署决策所具备的参考价值。在这一点上,本届赛事中阿里、高德、vivo等产业团队的参赛,已经构成了一个值得关注的信号。产业侧的参与意味着,这套评测框架被认为与真实业务场景存在实际关联,而不是仅仅停留在学术考核层面。

目前,具身智能评测标准化依然处在早期发展阶段,国际范围内也已有其他团队在同步推进各自的标准化体系建设。智元借助本届赛事搭建起了一套具备实际内容支撑的评测参照系,并有望在后续阶段依赖更多机构的独立验证,逐步发展为行业可通用的衡量尺度。

05.

结语与未来

AGIBOT WORLD CHALLENGE@ICRA 2026所集中触及的几个问题,包括仿真与真机之间的鸿沟、评测标准长期存在的碎片化,以及学术成果通往产业部署的转化路径,实际上都是当前具身智能领域共同面临的核心挑战。以真机验证为明确导向的评测体系,并配套全链路开源工具链,在降低行业重复建设成本以及推动技术成果实现横向比较这两方面,提供了一种具有现实内容支撑的实践方向。具身智能若要真正从实验室走向现实世界,所需要的显然不只是算法层面的突破,更需要一套可验证、可复现、可落地的基础设施以及评测共识,而这或许正是本届赛事更深层也更长远的意义所在。

来源:AGIBOT WORLD CHALLENGE@ICRA 2026收官,这场顶级赛事,在考核具身智能的什么能力? | 机器人大讲堂

声明:本文来自机器人大讲堂,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/