GM-100详解：真实世界机器人评测榜单从比规模转向考细节

前言

机器人到底是真会干活，还是只会做几个“熟练动作”？

过去几年，具身智能很火。各种机器人模型、VLA模型、模仿学习方法不断出现，演示视频里，机器人可以根据语言指令抓杯子、拿苹果、放进盒子，看起来已经很接近“通用机器人”。

但如果把镜头从演示视频拉回真实世界，会发现一个很现实的问题：很多机器人模型擅长的任务，其实集中在少数高频动作上，比如“抓起来”“拿住”“放下”“移动到某个位置”。这些动作当然重要，但真实生活远不止这些。

人类做事充满细节。比如，把球打进桌面球门，不是慢慢推过去；用印章盖章，不只是拿起印章，还要拔盖、按压、停留、再插回；关抽屉时，有时一只手要固定后方，另一只手才好推进去；穿山楂串时，要考虑竹签是否弯曲、果子是否滑动。这些动作看起来不宏大，却非常考验机器人对接触、顺序、力度、空间关系和物体特性的理解。

GM-100，全称The Great March 100: 100 Detail-Oriented Tasks for Evaluating Embodied AI Agents（用于评估具身智能的 100 项细节导向型任务），正是围绕这个问题提出的真实机器人评测基准，于2026 年初由上海交通大学联合 SII（交大内部研究团队）、RHOS.ai（交大李永露副教授领导的研究实验室）、蚂蚁灵波、蚂蚁集团共同发布。

简单来说，GM-100 是一套100 个精细化、长尾化的具身 AI 评测任务，专为全面、公正评估机器人智能体的真实世界交互能力而设计，能有效区分当前 VLA 模型的性能差异。它不是单纯多收集一些数据，也不是再做一个漂亮榜单，而是试图回答一个更基础的问题：我们到底该用什么样的任务，去判断一个具身智能模型是不是真的更强？

GM-100解决的不是“数据不够”，而是“考题太偏”

今天机器人学习领域并不缺数据。Open X-Embodiment、Agibot、RoboCOIN、DROID、RH20T 等数据集都在推动机器人训练数据规模增长。

问题在于，数据量变大，并不等于任务设计更合理。GM-100论文中特别强调，很多已有任务在语义去重和动作分类后，会明显集中在“pick and hold”等常见行为上，复杂任务和长尾行为覆盖不足。

这就像考试。如果一张试卷里大部分题目都在考加减法，那么学生的分数很高，并不能证明他会解决复杂应用题。放到机器人上也是一样。如果评测任务主要是抓取、放置、移动，那么模型在榜单上表现不错，并不意味着它真的具备复杂操作能力。

GM-100的核心价值，就在于它把评测重点从“模型有多大、数据有多少”，拉回到“任务是不是足够真实、足够细、足够能拉开差距”。它关注的是机器人在真实物理世界中经常遇到、但传统评测中容易被忽略的细节动作。比如动态接触、双臂协同、物体排序、柔顺操作、工具使用、动作节奏控制等。

| 表1：GM-100核心信息速览

论文和官网显示，GM-100在两类真实机器人平台上采集数据，其中Cobot Magic覆盖100个任务，Xtrainer当前版本覆盖前10个任务；每个任务通常包含100条训练轨迹和30条测试轨迹，用于保证不同模型在相近测试分布下比较。

GM-100到底考什么？考的是“细节动作能力”

GM-100最有意思的地方，是它并没有只选择那些看起来“有用”的家务任务，而是刻意减少人类主观偏见。

论文中提到，任务设计不以现实任务的实用性为唯一标准，而是基于物理常识和底层操作可执行性，也就是所谓 how-level affordance。简单说，就是先问：这个动作在物理上是否合理？机器人是否能通过当前硬件执行？这个任务是否能考察一种明确的操作能力？

官网展示的前几个任务已经很能说明问题：击球入门、切割物体、盖章、折纸盒、关闭桌面抽屉、穿山楂串、清理垃圾、转移试管、打开台灯、按大小排序方块等。

这些任务并不都是传统意义上的“大任务”，但每一个都在考机器人某种底层能力。比如“击球入门”考的是瞬时接触和动作节奏，机器人不能只是把球慢慢推过去；“切割物体”考工具使用和接触力控制；“盖章”考多阶段顺序动作；“关闭抽屉”考双臂配合，一只手稳定物体，另一只手推进；“穿山楂串”考精细对准、柔顺控制和防止竹签弯曲；“试管转移”考易碎物体操作；“方块大小排序”则考视觉判断、排序逻辑和稳定摆放。

| 表2：部分GM-100任务与对应能力

从普通读者角度看，GM-100其实在告诉我们：机器人真正难的不是“听懂一句话”，而是把一句话拆成一连串物理动作，并且每一步都不能太粗糙。人类做这些事情时几乎不用思考，但机器人要同时处理视觉、语言、动作、接触、力度、顺序和失败恢复，这才是真实世界的难点。

GM-100怎么生成任务？

GM-100的任务不是研究者随便列出来的。它采用了一条比较系统的任务构建流程。

第一步，是收集并分析已有机器人数据集和评测任务，对任务进行去重和语义分类，找出现有任务中哪些动作过度集中，哪些动作长期缺失。论文中的词云和动词频率分析显示，过去任务描述中确实存在明显的高频动作偏置。

第二步，是引入人–物交互研究中的知识。GM-100借鉴了HAKE、PaStaNet、OCL等工作中的人–物交互原语和物体可供性。这里的“可供性”可以理解为一个物体天然支持哪些动作：刀可以切，抽屉可以拉开和关闭，印章可以按压，试管可以拿取但需要轻柔，球可以击打或滚动。通过这种方式，任务不再只是“桌面上有什么就做什么”，而是围绕“人类如何和物体发生交互”来展开。

第三步，是利用Qwen3大模型生成候选任务。论文描述中，Qwen3会在统一prompt下对动作原语进行语义消歧，枚举与动作相关的物体，再合成具体任务描述。随后，大模型会对任务的机器人可执行性进行初筛，最后由五位人类专家进行筛选。

第四步，是把任务变成真实可执行的评测项。研究团队不仅给出任务名称，还会设计交互细节、选择合适物体、建立完成标准，并录制人类完成任务的模板视频。官网也提供任务展示、训练/测试数据入口、物体购买链接和交互式榜单。

这套流程的意义在于，它把机器人评测从“经验驱动”推进到“结构化设计”。以前很多评测像是研究团队自己出题，题目之间缺乏统一标准；GM-100则试图建立一套可持续扩展的方法，让未来GM-X系列可以不断增加任务，而不是停留在一次性数据集。

真实任务不该只有“成败二分”

传统机器人评测最常见的指标是Success Rate，也就是成功率。任务完成了就是1，失败了就是0。这很直观，但对于复杂任务来说不够细。

比如机器人执行“盖章”任务，它成功拿起印章、拔掉盖子，也完成了按压，但最后没有把盖子插回去。按照传统成功率，它可能仍然是失败。但从能力分析角度看，它并不是完全不会做，而是卡在最后一步。再比如“关闭抽屉”，机器人可能已经抓住抽屉并推动了一段距离，只是没有完全闭合，这和一开始就没有找到抽屉显然不是同一种失败。

因此，GM-100提出或采用了Partial Success Rate，也就是部分成功率。PSR衡量的是一个复杂任务中，子任务或子目标完成了多少。论文明确指出，对于包含多个步骤或目标的复杂任务，仅靠SR难以充分反映模型表现，因此多数GM-100任务会定义多个子任务和子目标，用PSR进行更细粒度评估。

这对行业非常重要。因为机器人模型的进步往往不是突然从0到100，而是先学会识别物体，再学会接近，再学会接触，再学会完成最后动作。如果只有成功率，很多中间进步会被掩盖；有了PSR，研究者可以更清楚地知道模型到底差在哪里，是感知不行、动作不稳、双臂协同不好，还是最后的接触控制失败。

实验结果说明了什么？真实机器人评测确实能拉开差距

GM-100不是只提出任务清单，也做了真实机器人数据采集和基线模型测试。论文中提到，GM-100建立了超过13,000条遥操作轨迹，并在两种机器人平台上进行评估；评测指标包括SR、PSR和动作预测误差。

从Xtrainer平台前10个任务的真实世界表现看，几个基线模型之间差距很明显。论文表格中，三个基线在前10个任务上的平均PSR大致从7.0%到53.9%不等，平均SR则从1.6%到24.9%不等。这说明GM-100任务既不是完全不可做，也不是过于简单；它能够让不同策略之间出现明显区分。

更有价值的是，论文还分析了动作预测误差与真实任务成功表现之间的关系。结果显示，在Xtrainer环境中，动作预测误差和物理成功表现之间的关系如下：动作预测误差越大，真实执行成功率通常越低；动作预测越准确，真实执行成功率通常越高。

这给VLA模型和机器人策略训练带来一个直接启发：未来模型不能只追求语言理解能力，也不能只在离线数据上看损失函数的下降（模型在已见过的数据上表现越来越好）。真正有意义的是，模型能否把预测出来的动作稳定转化为真实物理世界中的成功操作。换句话说，具身智能最终要过的不是“文本理解考试”，而是“物理执行考试”。

GM-100对具身智能行业的启发

GM-100最值得关注的地方，不只是它有100个任务，而是它提供了一种新的评测思路。

第一，机器人评测要从“规模崇拜”转向“结构化任务设计”。过去行业很容易关注数据集有多少条轨迹、覆盖多少机器人平台，但如果任务高度重复，模型仍然可能只是在反复学习少数常见动作。GM-100强调长尾任务和细节动作，本质上是在补足机器人能力评测的盲区。

第二，真实机器人评测会越来越重要。仿真环境成本低、速度快，适合大规模训练和初筛，但接触、摩擦、物体变形、视角遮挡、执行延迟等问题，最终都要在真实机器人上暴露。GM-100把任务放到真实平台上做，有助于筛掉那些只在理想环境里好看的方法。

第三，评测榜单要更加开放和社区化。GM-100官网明确表示，由于真实机器人测试成本很高，结果会逐步释放；同时，团队并不声称能建立一个绝对公平的中心化物理测试环境，而是希望通过开放任务定义、数据、测试流程、视频证据和社区上传结果，形成长期透明的评测生态。

第四，GM-100也会倒逼机器人数据采集方式升级。过去采数据可能更关注“多收一点轨迹”，未来则要更关注任务覆盖、动作原语覆盖、物体可供性覆盖，以及每个任务的评分标准是否清晰。对于做机器人数据工厂、VLA模型训练、遥操作平台、灵巧操作算法的团队来说，这都是很现实的方向。

机器人真正的进步，要从细节里看出来

GM-100给人的最大提醒是：具身智能不能只停留在“会说、会看、会抓”的阶段。真正的机器人能力，往往藏在很小的动作细节里。如果说过去的机器人评测更像是在问“模型有没有学会基本动作”，那么GM-100开始追问的是：“模型能不能在真实物理世界里，把复杂、细碎、长尾的动作完成到位？”

这也是GM-100作为“机器人学习奥林匹克”第一步的意义。它更像是一套更真实、更细致、更接近未来通用机器人需求的考题，未来谁能在这样的考题上稳定拿高分，谁才更有资格说自己离真实世界的通用具身智能更近了一步。

来源：GM-100详解：真实世界的机器人评测榜单，从 “比规模” 到 “考细节” | 具身研习社

通知

尊敬的用户

user

资讯

GM-100详解：真实世界机器人评测榜单从比规模转向考细节

GM-100详解：真实世界机器人评测榜单从比规模转向考细节

相关图文

国家级机器人训练场正式启用具身智能应用中试基地揭牌

一级市场本周108起融资环比增加63.64%，航空航天、具身智能活跃度居前

一机器人意外摔倒获赔5976元全国首例机器人保险理赔在沪落地

拥抱Agentverse，启航具身智能新时代

具身智能行业真正稀缺的是现金流，而非融资和订单

北京人形 Pelican‑Unify 1.0 登顶世界第一，具身大脑能力跻身第一梯队

热门资讯

支付宝“AI收”新增“商家入驻”Skill，网站应用可一键开通支付

腾讯混元重建后首次发布并开源Hy3 Preview：主打全面实用性，Agent能力大幅提升

谷歌推出 Gemini Intelligence，安卓系统迎来 AI 时代

宇树高达梦机器人售价390万元，能否实现？

Hermes Agent 首次超越 OpenClaw 成为全球 Token 消耗冠军

原力灵机Dexbotic 2.0 具身智能PyTorch进展中

快讯

英矽智能拿下武田超6亿美元战略合作，股价反跌超4% CEO称AI行业正迎来一场残酷回调

美国数据公布，金价上涨超100美元，美联储加息预期大幅下降，道指创新高，AI科技股反弹，特斯拉大卖股价却大跌

小鹏最便宜SUV预售14.38万元起智驾标配

伴侣机器人价格崩盘，春水堂降至1万5千元

践行AI WAN产业落地，新华三以Agentic AI重新定义网络

宇树科技科创板IPO注册获批广钢气体上半年净利同比预增至多138%

Meta出租算力，并非行业过剩信号

英伟达开源机器人技能库，Jim Fan称具身智能范式已变

地瓜机器人推出世界模型Uranus：逐帧预测与反馈，探索机器人生成式仿真

人形机器人进厂，真正的门槛在哪里？五大场景专家激辩

推荐专栏

爱力方

机器人大讲堂

下一篇

user

资讯

GM-100详解：真实世界机器人评测榜单从比规模转向考细节

GM-100详解：真实世界机器人评测榜单从比规模转向考细节

相关图文

国家级机器人训练场正式启用 具身智能应用中试基地揭牌

一级市场本周108起融资环比增加63.64%，航空航天、具身智能活跃度居前

一机器人意外摔倒获赔5976元 全国首例机器人保险理赔在沪落地

拥抱Agentverse，启航具身智能新时代

具身智能行业真正稀缺的是现金流，而非融资和订单

北京人形 Pelican‑Unify 1.0 登顶世界第一，具身大脑能力跻身第一梯队

热门资讯

支付宝“AI收”新增“商家入驻”Skill，网站应用可一键开通支付

腾讯混元重建后首次发布并开源Hy3 Preview：主打全面实用性，Agent能力大幅提升

谷歌推出 Gemini Intelligence，安卓系统迎来 AI 时代

宇树高达梦机器人售价390万元，能否实现？

Hermes Agent 首次超越 OpenClaw 成为全球 Token 消耗冠军

原力灵机Dexbotic 2.0 具身智能PyTorch进展中

快讯

英矽智能拿下武田超6亿美元战略合作，股价反跌超4% CEO称AI行业正迎来一场残酷回调

美国数据公布，金价上涨超100美元，美联储加息预期大幅下降，道指创新高，AI科技股反弹，特斯拉大卖股价却大跌

小鹏最便宜SUV预售14.38万元起 智驾标配

伴侣机器人价格崩盘，春水堂降至1万5千元

践行AI WAN产业落地，新华三以Agentic AI重新定义网络

宇树科技科创板IPO注册获批 广钢气体上半年净利同比预增至多138%

Meta出租算力，并非行业过剩信号

英伟达开源机器人技能库，Jim Fan称具身智能范式已变

地瓜机器人推出世界模型Uranus：逐帧预测与反馈，探索机器人生成式仿真

人形机器人进厂，真正的门槛在哪里？五大场景专家激辩

推荐专栏

爱力方

机器人大讲堂

下一篇

国家级机器人训练场正式启用具身智能应用中试基地揭牌

一机器人意外摔倒获赔5976元全国首例机器人保险理赔在沪落地

小鹏最便宜SUV预售14.38万元起智驾标配

宇树科技科创板IPO注册获批广钢气体上半年净利同比预增至多138%