全球首个肌肉驱动机器人成功实现Sim-to-Real迁移并完成真实环境验证

在机器人技术向着柔性、安全、高动态持续迈进的过程中，以气动人工肌肉（PAMs）为核心、搭配肌腱传动的机械臂，一直被视作最贴近生物运动逻辑的理想形态。

相比传统刚性电机驱动方案，这类设计能够将驱动单元全部布置在机械臂基座，大幅降低运动部件质量，配合气动肌肉的强劲爆发力，在高速动态任务中具备天然优势；同时，结构本身自带的机械柔顺性，能在碰撞时显著降低冲击力，让机器人在人机共融场景中具备更高安全边际，甚至在技能学习阶段，就能展现出更高的样本效率。

但就是这样一种理论上近乎完美的设计，却在实际落地中寸步难行。放眼全球机器人实验室，肌肉驱动+肌腱传动的机械臂几乎都停留在单关节、简单动作的验证阶段，多自由度、复杂动态任务的工程化应用始终是空白。

核心障碍并非机械结构设计，而是肌肉与肌腱耦合带来的极端复杂动力学特性 ——高度非线性、迟滞效应、随温度与关节位置变化的摩擦特性，让传统解析建模彻底失效，控制算法无从下手，更让仿真到现实（Sim-to-Real）的迁移成为不可能完成的任务。

就在2026年4月，这一困扰领域十余年的技术死结被彻底解开。马克斯·普朗克智能系统研究所联合波士顿大学、牛津大学、阿尔伯塔大学等机构的研究团队，在最新论文中提出广义执行器网络（Generalized Actuator Network，GeAN），彻底抛弃对扭矩传感器的依赖，仅依靠关节位置轨迹即可完成复杂执行器动力学建模，在四自由度气动肌肉驱动肌腱传动机械臂PAMY2上，首次实现精准目标到达、动态杯球两大高难度任务的纯仿真训练、零样本实机部署。

基于肌腱驱动与肌肉驱动机器人的杯球策略。该行为完全通过习得的执行器模型在仿真中完成训练，并零样本迁移至实体机器人运行。

这是全球范围内，四自由度肌肉驱动机械臂Sim-to-Real迁移的首次成功验证，直接填补了柔性肌肉机器人从仿真到现实的核心技术空白。

01.

肌肉机械臂的Sim-to-Real困境：域随机化失效，混合训练效率低下

过去十年，Sim-to-Real迁移已经成为机器人强化学习的核心路径。从四足机器人的复杂地形行走、人形机器人的步态控制，到乒乓球、足球等高速对抗任务，仿真训练+零样本落地的模式，凭借GPU并行加速的优势，将原本需要数天的实机训练压缩至分钟级，同时避免了实机长时间运行带来的机械磨损、能耗过高、环境重置困难等问题。而支撑这一切的基础，是仿真器与真实机器人之间尽可能小的动态偏差，以及域随机化（Domain Randomization）对残余偏差的抹平能力。

但这套成熟体系，在肌肉驱动肌腱传动机械臂面前完全失效。

首先，气动人工肌肉的动力学特性远超传统执行器的复杂程度。作为核心驱动单元，PAMs的输出力与气压、长度呈现强非线性关系，同时自带显著的迟滞效应，即便输入相同控制信号，不同运动方向、不同运动速度下的输出扭矩都会出现明显偏差；更棘手的是，环境温度、使用时长带来的肌肉疲劳，都会持续改变其动态特性，让固定参数的解析模型完全失去意义。

其次，肌腱传动进一步放大了建模难度。肌腱在机械臂内部的导向结构中穿行，摩擦系数并非固定值，而是随关节角度、肌腱张力、运动速度实时变化；四自由度设计下，不同关节的肌腱运动相互耦合，一个关节的运动会直接改变其他肌腱的受力与摩擦状态，形成多变量强耦合的非线性系统，传统刚体动力学模型无法兼容这种复杂的接触与传动特性。

这就导致，肌肉驱动机械臂的Sim-to-Real偏差，比传统电机驱动机器人大出数个数量级。域随机化的核心逻辑，是在仿真中对物理参数添加噪声，让策略适应动态变化，从而兼容现实偏差。但面对肌肉机械臂的巨大偏差，过度增加噪声会直接导致策略性能崩塌，噪声过小又无法覆盖现实动态范围，陷入两难境地。

在此之前，领域内针对肌肉驱动系统的Sim-to-Real探索，全部局限在极低复杂度场景。已有研究要么针对单关节机械臂，仅实现简单的定点到达；要么依靠纯解析模型+域随机化，完成单次敲击这类极简动态动作；还有研究放弃纯仿真路线，采用仿真与实机混合训练，仅对任务目标（如乒乓球）进行仿真，机器人本体全程使用实机，即便经过样本效率优化，依旧需要数小时的实机交互，无法满足复杂任务的规模化训练需求。

所有尝试都指向同一个结论：不解决肌肉+肌腱执行器的精准建模问题，肌肉驱动机械臂的Sim-to-Real就永远无法实现。而传统解析建模已经走到尽头，唯一的出路，是用数据驱动的方式，让神经网络自主学习这套无法用公式描述的复杂动力学。

02.

GeAN核心创新：抛弃扭矩传感器，使用关节位置轨迹学习执行器动力学

研究团队没有陷入“用复杂公式逼近真实动态”的传统思路，而是对机械臂动力学进行了模块化拆分：机械臂本体的刚体运动、与环境的交互动力学，属于解析可建模部分，直接沿用成熟的扭矩驱动仿真器；仅将最复杂、无法解析建模的肌肉驱动与肌腱传动部分，交给神经网络学习，由此构建出全新的Sim-to-Real迁移流程，而流程的核心，就是广义执行器网络GeAN。

GeAN的设计灵感源于早期执行器网络（Actuator Network），但做出了颠覆性改进。早期执行器网络仅适用于系列弹性执行器，且必须依赖扭矩传感器获取真实扭矩标签，限制了应用范围。而GeAN彻底摆脱对扭矩传感器的依赖，直接从关节位置轨迹中学习控制信号到关节扭矩的映射关系，让这套方法能够适配绝大多数无扭矩传感器的低成本肌肉驱动机器人。

为了精准捕捉肌肉执行器的迟滞特性，GeAN将关节位置、控制信号的历史序列作为网络输入，而非单一时刻的状态。研究团队发现，传统稠密历史序列容易导致过拟合，因为连续测量值差异极小，网络难以提取有效特征。为此，GeAN将输入改造为增量历史序列，即记录当前值与历史值的差值，同时对所有输入进行零均值、单位方差归一化，放大连续测量值的差异，让网络更高效地学习迟滞与动态变化规律。实验验证，步长为1的短序列、长度为3的历史窗口，能在精度与计算效率之间达成最优平衡。

在训练监督信号的设计上，团队提出两种损失函数，并通过大量实验验证了最优方案。

第一种是扭矩损失：通过逆动力学函数，将真实关节位置、速度、加速度转化为虚拟扭矩标签，再让网络预测扭矩与虚拟标签做均方误差优化。这种方法直接针对扭矩空间优化，但忽略了扭矩误差到位置误差的传递关系，无法保证最终关节位置的精准度。

第二种是位置损失：将网络预测的扭矩输入仿真器，直接计算仿真输出的关节位置与真实关节位置的偏差，以位置偏差为损失函数反向更新网络。团队从动力学方程中严格推导得出，扭矩误差与位置误差存在明确的映射关系，位置损失直接优化最终部署的核心指标，避免了扭矩空间优化的间接性缺陷。

在800条真实测试轨迹的验证中，位置损失训练的GeAN展现出压倒性优势：单步（2毫秒）位置误差比扭矩损失模型低6%，500步（1秒）长序列滚动误差低29%，远超作为基线的无监督执行器网络（UAN）。UAN将执行器建模转化为强化学习任务，在肌肉驱动系统中因部分可观测问题导致优化脆弱，最终误差是GeAN的数倍，完全无法支撑Sim-to-Real迁移。

为了应对低数据场景下的模型认知不确定性，团队进一步构建了 5个GeAN组成的集成模型，每个模型采用不同随机初始化、不同数据排列训练，在仿真每一步随机抽取一个模型输出扭矩。这种设计能有效避免策略过拟合到单一模型的误差分布，在数据量不足时，显著提升策略迁移的鲁棒性。

03.

全流程Sim-to-Real部署：33分钟实机数据，纯仿真训练零样本落地

基于GeAN的肌肉机械臂Sim-to-Real流程，全程分为三个阶段，无需实机策略微调，真正实现“训练在仿真，落地在现实”。

仿真到现实迁移流程总览。(1) 基于位置损失训练执行器网络，使网络输出的扭矩能让仿真关节位置与探索数据相匹配。(2) 在仿真中进行强化学习训练，由训练好的执行器网络将策略输出的控制信号转换为扭矩，输入至包含机械臂与外部物体的扭矩驱动仿真器。(3) 零样本迁移到真实机器人系统。

第一阶段：实机数据采集与GeAN训练。研究团队在PAMY2机械臂上采集2500条开环运动轨迹，每条轨迹时长2秒，总数据采集时间约1.4小时。数据仅记录关节位置与控制信号，通过后向差分、中心差分计算速度与加速度，无需任何扭矩、力传感器数据。数据集按8:2划分为训练集与验证集，在单张NVIDIA A100 GPU上训练150轮，仅需25分钟即可完成GeAN训练。

四自由度肌肉驱动机器人 PAMY2 （左侧）及其仿真模型（右侧）

第二阶段：仿真环境构建与强化学习策略训练。将训练好的GeAN集成到MJX GPU仿真器中，GeAN负责将策略输出的控制信号转化为关节扭矩，扭矩输入标准刚体动力学仿真器，完成机械臂与任务环境的交互模拟。团队采用PPO算法进行并行强化学习训练，1024个并行实例同时运行，大幅缩短训练时间，策略仅在仿真中完成学习，全程不与真实机器人交互。

到达任务可视化示意图。真实机器人（左侧）的运动被同步到 MuJoCo 仿真环境（右侧），用以直观显示与目标位置的距离。当偏差低于公式所定义的成功阈值时，目标标记会从红色变为绿色。

第三阶段：零样本实机部署。将仿真训练完成的策略直接加载到真实PAMY2机械臂，无需任何参数微调、无需实机迭代优化，直接运行任务。

在数据效率的探索中，团队发现了更具工程价值的结论：将训练数据削减至1000条轨迹，仅需33分钟实机采集时间，GeAN的建模精度几乎没有下降，对应的策略迁移成功率保持在原有水平；继续削减数据量，集成GeAN的策略性能下滑幅度，远低于单一GeAN模型，证明集成结构在低数据场景下的核心价值。这意味着，GeAN能够以极低的数据成本，完成肌肉驱动机械臂的Sim-to-Real建模，大幅降低工程落地门槛。

04.

双任务实测验证：精准到达超90%成功率，杯球任务全球首次突破

研究团队选择了精准目标到达与动态杯球两大任务，从静态精准度、动态控制能力两个维度，全面验证GeAN的Sim-to-Real迁移效果，所有结果均为100次实机 Rollout 的统计值，具备极强的说服力。

精准目标到达任务是检验机械臂控制精度的基础任务，要求机械臂从随机初始状态，快速移动至随机生成的目标关节位置，成功标准为四关节平均位置误差小于2°。这一任务仅涉及机械臂本体运动，无外部干扰，直接验证GeAN对执行器动力学的建模精度。

观测状态包含当前关节位置、速度、上一时刻控制信号以及目标位置，策略输出控制信号增量，奖励函数融合目标距离惩罚、动作平滑惩罚、关节限位惩罚与集成模型分歧惩罚，引导策略快速、平稳地到达目标。

到达任务与杯球任务策略在实体机器人上的成功率（数值越高越好）。所有结果均基于 100 次试验计算得出。误差棒表示采用威尔逊区间计算得到的 95% 置信区间。在两项任务中，使用集成模型与不使用集成模型的配置表现相近。降低动作惩罚项会在一定程度上降低迁移效果。

实机测试结果显示，集成GeAN策略的成功率达到90% ，最终关节平均误差仅1.32°；单一GeAN策略成功率93%，平均误差1.22°，两者性能几乎持平。

到达任务中最终关节位置与目标之间的平均绝对偏差（数值越低越好）。误差棒表示通过自助法计算的、100 次试验的 95% 置信区间。使用集成模型与不使用集成模型的最终偏差相近，而降低动作惩罚会导致偏差增大。

这一精度在肌肉驱动肌腱传动机械臂中堪称突破性成果，彻底打破了“肌肉臂无法精准控制”的行业认知。

而当降低动作平滑惩罚权重后，策略动作变得剧烈，超出GeAN训练数据分布，仿真与现实偏差放大，成功率下降至70%，平均误差升至1.94°，也从侧面证明了平滑控制对肌肉臂Sim-to-Real的重要性。

动态杯球任务是机器人领域经典的高难度动态任务，要求机械臂通过快速甩动、姿态调整，将绳索悬挂的小球精准甩入末端执行器的杯体中，需要极强的爆发力、精准的时序控制与动态响应能力，是检验仿真迁移效果的黄金标准。

这一任务的难度远高于目标到达：首先，小球与绳索带来了额外负载与外部受力，而GeAN训练时从未接触过这类负载，模型需要具备极强的泛化能力；其次，小球运动存在明显的动态耦合，仿真与现实的绳索、小球动力学偏差，会直接影响任务成败；最后，实机中小球的视觉跟踪存在遮挡、噪声问题，进一步增加了控制难度。

为了提升策略鲁棒性，团队在仿真中加入小球位置高斯噪声与随机丢失模拟，匹配实机的视觉跟踪误差。观测状态在机械臂状态基础上，增加小球位置与速度，奖励函数以杯球成功为稀疏核心奖励，配合动作、速度、模型分歧惩罚。

最终，集成GeAN策略在实机上实现75%的成功率，单一GeAN策略成功率74%，完成了全球首次肌肉驱动机械臂杯球任务的Sim-to-Real迁移。失败案例主要集中在绳索缠绕机械臂、小球入杯后弹出，这两类问题源于仿真与现实的绳索碰撞、小球接触动力学偏差，与GeAN的执行器建模无关，通过优化仿真的绳索与杯体物理模型，即可进一步提升成功率。

两大任务的成功验证，充分证明GeAN不仅能精准建模肌肉与肌腱的复杂动力学，还具备极强的泛化能力，能够应对未见过的外部负载与动态干扰，为肌肉驱动机械臂的复杂任务落地奠定了基础。

05.

结语与未来

此次GeAN的提出，并非一次简单的算法改进，而是从根源上解决了肌肉驱动机械臂的产业化核心障碍，让这种安全、柔顺、高速的机器人设计，真正具备了走出实验室、进入真实场景的可能。

论文地址：https://arxiv.org/pdf/2604.09487

来源：全球首个肌肉驱动机器人成功完成Sim-to-Real迁移！ | 机器人大讲堂

通知

尊敬的用户

user

资讯

全球首个肌肉驱动机器人成功实现Sim-to-Real迁移并完成真实环境验证

机器人大讲堂

全球首个肌肉驱动机器人成功实现Sim-to-Real迁移并完成真实环境验证

机器人大讲堂

相关图文

前NVIDIA工程师用强化学习让人形机器人担任办公室实习生

图灵奖获得者-"强化学习之父"Richard Sutton教授参访北京人形机器人创新中心

AReaL2.0开源，打造面向自演进智能体的RL基础设施

前DeepMind团队创立的量化AI公司EquiLibre完成A轮融资，估值5亿美元

无界动力发布MWA隐空间世界模型，此前融资数亿美元并登顶权威榜单

英伟达GR00T：90%虚拟训练，机器人能否靠纯仿真落地

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

小艺Claw首次订阅即享7天0元体验，新用户限时专享500 AI点

德国黑森林实验室发布Flux3多模态模型，支持原生音频生成并实现20秒音视频同步输出

AIGC落地泛交通领域：地上铁解析新能源物流智能运营与全球化战略落地

阿里开源0.8B端到端文档解析模型OvisOCR2，登顶OmniDocBench v1.6

Claude 语音模式已切换 Claude 3 Opus：从随口问答升级为支持工具调用和语言切换的实时参谋

从赛场炫技到产业落地：机器人“运动员”是怎样炼成的？

腾讯推出WorkBuddy Bench：一套覆盖代码网页办公安全四个领域的编码智能体评测基准

大湾区首单H回A 越疆科技86天过会持续亏损叠加股权争议待解

GPT-Live 语音上线，ChatGPT 桌面端已安装“真人口吻”

人形机器人从“上场”到“进厂”——“人形机器人量产元年”新观察

推荐专栏

爱力方

机器人大讲堂

下一篇

user

资讯

全球首个肌肉驱动机器人成功实现Sim-to-Real迁移并完成真实环境验证

机器人大讲堂

全球首个肌肉驱动机器人成功实现Sim-to-Real迁移并完成真实环境验证

机器人大讲堂

相关图文

前NVIDIA工程师用强化学习让人形机器人担任办公室实习生

图灵奖获得者-"强化学习之父"Richard Sutton教授参访北京人形机器人创新中心

AReaL2.0开源，打造面向自演进智能体的RL基础设施

前DeepMind团队创立的量化AI公司EquiLibre完成A轮融资，估值5亿美元

无界动力发布MWA隐空间世界模型，此前融资数亿美元并登顶权威榜单

英伟达GR00T：90%虚拟训练，机器人能否靠纯仿真落地

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

小艺Claw首次订阅即享7天0元体验，新用户限时专享500 AI点

德国黑森林实验室发布Flux3多模态模型，支持原生音频生成并实现20秒音视频同步输出

AIGC落地泛交通领域：地上铁解析新能源物流智能运营与全球化战略落地

阿里开源0.8B端到端文档解析模型OvisOCR2，登顶OmniDocBench v1.6

Claude 语音模式已切换 Claude 3 Opus：从随口问答升级为支持工具调用和语言切换的实时参谋

从赛场炫技到产业落地：机器人“运动员”是怎样炼成的？

腾讯推出WorkBuddy Bench：一套覆盖代码网页办公安全四个领域的编码智能体评测基准

大湾区首单H回A 越疆科技86天过会 持续亏损叠加股权争议待解

GPT-Live 语音上线，ChatGPT 桌面端已安装“真人口吻”

人形机器人从“上场”到“进厂”——“人形机器人量产元年”新观察

推荐专栏

爱力方

机器人大讲堂

下一篇

大湾区首单H回A 越疆科技86天过会持续亏损叠加股权争议待解