近日,大晓机器人联合香港中文大学多媒体实验室(CUHK MMLab)发布并开源具身操作VLA模型ACE-Ego,在两项国际权威基准测试中双双领先,并已能在复杂零售场景中完成实操验证。

此次是大晓机器人2025年12月提出的"以人为中心"(Human-centric)ACE研发范式,在具身模型预训练层面的核心落地成果。大晓机器人由商汤联合创始人王晓刚任董事长、AI科学家陶大程任首席科学家,此前已推出"开悟"世界模型3.0(Kairos 3.0)。
两项基准登顶,增益来自框架整体优化

在人形机器人操作基准RoboCasa GR1 TableTop上,ACE-Ego以72.8%的平均成功率刷新当前最高纪录,超过此前排名第二的小鹏DIAL(70.2%)2.6个百分点,较英伟达GR00T-N1.6(47.6%)高出25.2个百分点,同时领先京东JoyAI-RA、高德ABot-M0等多款主流模型。该基准设有24项典型家庭任务,涵盖18项抓取放置重排与6项铰接物体交互,是衡量人形机器人通用操作能力的核心标尺。

值得注意的是,ACE-Ego在盘子叠放、托盘移锅等多项任务上成功率突破98%,性能增益覆盖了几乎全部任务类别,而不是集中在某几项"擅长"的任务上,证明其提升来自框架底层优化,而非特定任务过拟合。
在双臂操作基准RoboTwin 2.0中,ACE-Ego同样位居VLA类模型榜首,在模拟真实世界不确定性的强域随机化(Hard)模式下取得90.62%的成功率,超越腾讯混元Hy-VLA(90.9%/90.1%)、京东JoyAI-RA(90.48%/89.28%)、蚂蚁灵波LingBot-VLA(88.56%/86.68%)、PI π?.?(82.74%/76.76%)等对比模型。从干净场景到强随机化场景,其性能仅衰减0.5个百分点,远低于行业平均水平,意味着这类模型学到的操作能力更贴近真实商业部署的要求,而非仅适用于理想测试环境。

用人类视频补充训练数据,落地零售场景
行业过去普遍依赖大批量、高成本的真机遥操作数据来训练具身模型,这条路径在数据规模上天然受限。ACE-Ego换了一条路,把海量、低成本的第一视角人类视频转化为可用于模型训练的有效监督信号,让人类视频和机器人数据联合预训练。
但人类动作和机器人动作之间存在明显错位,人手的空间坐标系与机械臂不同,人体结构与机器人本体结构不同,人的动作节奏与机器人控制频率(10Hz到30Hz不等)不同,从视频重建出来的动作标签也比传感器数据带有更多噪声。
为此,ACE-Ego设计了一套统一的动作坐标表达方式,将人类与机器人的动作投影到同一相机视角坐标系下;同时借助URDF(统一机器人描述格式)把不同本体的结构差异编码成模型可识别的"形态"信息,让模型区分"谁在做这个动作";再按物理时长而非固定帧数切分动作片段,避免不同控制频率的数据混训时打乱时序逻辑;最后用分级加权的方式,让机器人传感器数据主导核心精度,人类视频数据按可靠性补充多样性,过滤掉重建误差较大的片段。
这套方案也降低了新机型的适配成本,面对此前未见过的全新机型,仅需不到200条动作数据即可完成适配部署。团队的对比实验显示,引入第一视角人类视频联合预训练后,模型在RoboCasa基准上的成功率从68.3%提升至72.8%,验证了此思路对提升模型泛化能力的价值。
在应用方面,ACE-Ego目前已能稳定完成塑料袋打包、鞋子装入鞋盒等长周期、强接触的复杂零售操作,覆盖商品整理、打包履约等典型线下零售环节,能力边界已超出此前模型仅能完成简单桌面抓取的范畴。比如机械臂能精准识别鞋盒与鞋的空间位置完成装盒和翻盖扣合,也能抓取咖啡勺从敞口咖啡罐中舀取定量咖啡豆并精准注入杯中、全程无撒漏,还能撑开柔软易变形的塑料袋放入物品后收紧袋口完成打包。

据介绍,大晓机器人下一步计划推动ACE-Ego系列模型进一步融合视觉-语言-动作(VLA)模型与具身世界模型(WAM),并将应用场景从零售拓展至工业产线、柔性制造等更多领域。