SOTA刷新：具身模型ACE-Ego正式开源，解析机器人如何看懂人类动作

近日，大晓机器人联合香港中文大学多媒体实验室（CUHK MMLab）发布并开源具身操作VLA模型ACE-Ego，在两项国际权威基准测试中双双领先，并已能在复杂零售场景中完成实操验证。

具身模型SOTA刷新！ACE-Ego正式开源，揭秘如何让机器人学会人类的操作逻辑

此次是大晓机器人2025年12月提出的"以人为中心"（Human-centric）ACE研发范式，在具身模型预训练层面的核心落地成果。大晓机器人由商汤联合创始人王晓刚任董事长、AI科学家陶大程任首席科学家，此前已推出"开悟"世界模型3.0（Kairos 3.0）。

两项基准登顶，增益来自框架整体优化

具身模型SOTA刷新！ACE-Ego正式开源，揭秘如何让机器人学会人类的操作逻辑

在人形机器人操作基准RoboCasa GR1 TableTop上，ACE-Ego以72.8%的平均成功率刷新当前最高纪录，超过此前排名第二的小鹏DIAL（70.2%）2.6个百分点，较英伟达GR00T-N1.6（47.6%）高出25.2个百分点，同时领先京东JoyAI-RA、高德ABot-M0等多款主流模型。该基准设有24项典型家庭任务，涵盖18项抓取放置重排与6项铰接物体交互，是衡量人形机器人通用操作能力的核心标尺。

具身模型SOTA刷新！ACE-Ego正式开源，揭秘如何让机器人学会人类的操作逻辑

值得注意的是，ACE-Ego在盘子叠放、托盘移锅等多项任务上成功率突破98%，性能增益覆盖了几乎全部任务类别，而不是集中在某几项"擅长"的任务上，证明其提升来自框架底层优化，而非特定任务过拟合。

在双臂操作基准RoboTwin 2.0中，ACE-Ego同样位居VLA类模型榜首，在模拟真实世界不确定性的强域随机化（Hard）模式下取得90.62%的成功率，超越腾讯混元Hy-VLA（90.9%/90.1%）、京东JoyAI-RA（90.48%/89.28%）、蚂蚁灵波LingBot-VLA（88.56%/86.68%）、PI π?.?（82.74%/76.76%）等对比模型。从干净场景到强随机化场景，其性能仅衰减0.5个百分点，远低于行业平均水平，意味着这类模型学到的操作能力更贴近真实商业部署的要求，而非仅适用于理想测试环境。

具身模型SOTA刷新！ACE-Ego正式开源，揭秘如何让机器人学会人类的操作逻辑

用人类视频补充训练数据，落地零售场景

行业过去普遍依赖大批量、高成本的真机遥操作数据来训练具身模型，这条路径在数据规模上天然受限。ACE-Ego换了一条路，把海量、低成本的第一视角人类视频转化为可用于模型训练的有效监督信号，让人类视频和机器人数据联合预训练。

但人类动作和机器人动作之间存在明显错位，人手的空间坐标系与机械臂不同，人体结构与机器人本体结构不同，人的动作节奏与机器人控制频率（10Hz到30Hz不等）不同，从视频重建出来的动作标签也比传感器数据带有更多噪声。

为此，ACE-Ego设计了一套统一的动作坐标表达方式，将人类与机器人的动作投影到同一相机视角坐标系下；同时借助URDF（统一机器人描述格式）把不同本体的结构差异编码成模型可识别的"形态"信息，让模型区分"谁在做这个动作"；再按物理时长而非固定帧数切分动作片段，避免不同控制频率的数据混训时打乱时序逻辑；最后用分级加权的方式，让机器人传感器数据主导核心精度，人类视频数据按可靠性补充多样性，过滤掉重建误差较大的片段。

这套方案也降低了新机型的适配成本，面对此前未见过的全新机型，仅需不到200条动作数据即可完成适配部署。团队的对比实验显示，引入第一视角人类视频联合预训练后，模型在RoboCasa基准上的成功率从68.3%提升至72.8%，验证了此思路对提升模型泛化能力的价值。

在应用方面，ACE-Ego目前已能稳定完成塑料袋打包、鞋子装入鞋盒等长周期、强接触的复杂零售操作，覆盖商品整理、打包履约等典型线下零售环节，能力边界已超出此前模型仅能完成简单桌面抓取的范畴。比如机械臂能精准识别鞋盒与鞋的空间位置完成装盒和翻盖扣合，也能抓取咖啡勺从敞口咖啡罐中舀取定量咖啡豆并精准注入杯中、全程无撒漏，还能撑开柔软易变形的塑料袋放入物品后收紧袋口完成打包。

具身模型SOTA刷新！ACE-Ego正式开源，揭秘如何让机器人学会人类的操作逻辑