具身智能公司提出新方法，解决困扰机器人长程任务多年的“奖励瓶颈”问题

长视界机器人操作，一直是具身智能落地的硬骨头。从双手折叠柔性织物、杂乱场景取放物品，到多步骤精密装配，机器人要走完一整段长流程，最大的拦路虎不是动作控制，而是奖励信号。稀疏奖励给不出有效指引，稠密奖励要靠人工精雕细琢，零样本VLM评估不准还慢，传统方法又卡死在“任务进度必须随时间单调增长”的假设里，一旦遇到回退、纠错、重试这些真实机器人会做的动作，奖励直接乱掉。

整个领域都在死磕“怎么把绝对进度算得更准”，近日逐际动力联合北京邮电大学、浙江大学的研究团队采用了一条全新的设计思路，不算绝对进度，只比相对优势。

团队提出的框架概述。该系统由三个主要组件构成：（1）基于 MIMO 的时序 Transformer 的优势奖励模型（ARM），采用轻量化三态标注策略进行监督；（2）用于全局进度重建的自动化流水线；（3）优势加权行为克隆（AW-BC）算法，该算法利用从重建进度中提取的长度不变相对增益来优化策略。

团队提出了一套优势奖励建模框架ARM，把复杂的奖励设计变成简单的三态判断，配合MIMO时序Transformer和优势加权行为克隆，在双手长视界毛巾折叠任务上，直接把成功率干到99.4%，把当前主流VLA基线甩在身后。

PART 01

机器人学不会长任务，根本原因在于奖励标错了

VLA视觉-语言-动作模型这两年突飞猛进，机器人能听懂指令、看懂场景、输出动作，但一碰到长流程任务就容易崩。

问题出在学习方式上，主流方法还是靠模仿学习，要堆海量人类演示，数据贵、标注贵，而且人类操作里本来就有瑕疵、冗余、失误，直接学很难收敛到稳定策略。强化学习能自主优化，可奖励信号给不对，一切白搭。

稀疏奖励只有成功和失败，长流程里机器人试错几万次都收不到有效反馈，信用分配完全失效。

大家转而做稠密进度奖励，可麻烦立刻来了，人工标注0到1之间的连续进度数值，主观差异大，标注员耗时长，零样本VLM做进度评估，缺少空间几何对齐，奖励信号来回震荡，子任务分段方式太过粗糙，抓不住阶段内的修正、回退等关键动作，所有方法都默认进度随时间只增不减，和真实机器人行为完全不符，奖励工程，成了卡在长视界机器人操作前的无解瓶颈。

PART 02

换道：不估进度，只判“前进/后退/停滞”

ARM的核心思路，是彻底抛弃对“绝对进度”的执念，转而衡量状态之间的相对优势。

团队设计了一套极简的三态标注规则，不用标数值，不用划分子任务，标注员只需要判断三种状态的变化：+1代表前进，也就是朝着任务目标靠近了，-1代表后退，也就是偏离目标、出错、做了无用功，0代表停滞，也就是没推进任务，处于等待或空动作状态。

这种标注方式几乎没有认知负担，跨标注者一致性极高，既能用在完整演示视频，也能兼容DAgger这类碎片化纠错数据。更重要的是，相对优势不绑定时间单调性，机器人回退、调整、修正这些非单调行为，都能被精准标记，从根源上解决了传统奖励和真实动作错位的问题。

PART 03

MIMO时序Transformer：一次看懂多帧动作变化

传统奖励模型大多是MISO结构，多帧输入只输出一个进度值，时序信息被强行压缩。ARM直接改成MIMO多输入多输出时序Transformer，在因果窗口里并行处理多帧历史观测，一次前向就能输出多段时序的优势分类。

MISO与MIMO架构的对比。MISO代表多输入单输出，MIMO代表多输入多输出。

模型输入融合三类信息，CLIP提取的视觉特征、机器人本体感知状态、任务指令文本，统一投影到隐空间后，经过8层Transformer编码，得到带时序信息的特征表示。

三态标注策略应用于演示片段的示意图

训练用两个头配合，一个头做多帧优势分类，用交叉熵损失监督三态标签，把奖励估计变成分类任务，抗噪声能力大幅提升，另一个头做任务完成预测，用Focal Loss解决终态样本稀少的问题，输出当前帧是否完成任务，作为全局进度的锚点。两个目标一起训，ARM既能抓住帧间细微的状态变化，又能把零散的局部优势，锚定成全局一致的进度信号。

PART 04

全自动进度重建：不用人管，直接出稠密奖励

MIMO架构不只是准，还特别快。传统滑窗推理要反复计算重叠帧，ARM直接把长轨迹切成无重叠片段，单轮前向就能并行处理，冗余计算几乎消失。遇到长度不够窗口的末端片段，就用尾帧复制补齐，最后聚合时丢掉填充部分，保证时序准确。

以任务完成帧为1.0的锚点，顺着模型预测的相对优势往前累加，就能自动生成平滑、高保真的稠密进度曲线。全程不需要人工调参、不需要任务专属规则，原始轨迹进去，高质量奖励信号直接出来。

PART 05

AW-BC：从一堆不完美数据里，炼出最优策略

有了精准奖励，怎么让机器人学得更快更稳？

团队在RA-BC基础上，提出AW-BC优势加权行为克隆。真实演示数据长短不一，直接用会导致梯度忽大忽小，训练不稳定。AW-BC先做长度自适应增益归一化，把不同时长轨迹的进度增益拉到同一尺度，消除长度偏差。

再按批次内的增益分布做统计裁剪，后退、无效的样本权重直接压到接近0，极端高增益样本也做上限约束，避免训练震荡。最终的优化目标，就是最大化加权后的策略对数似然。

ARM在这里相当于一个学习型评论家，不用环境奖励、不用在线交互，只靠离线演示数据，就能把次优轨迹过滤掉，把高效、精准的动作提炼出来。

PART 06

实测：99.4%成功率，标注效率翻20倍

团队选择了业内公认很难的8阶段双手毛巾折叠任务作测试，从杂乱堆里精准抽一条毛巾，接着铺平，再完成两次纵向折叠、两次横向折叠，最后放进收纳盒，120秒内完全入盒才算成功。

长视界毛巾折叠任务概述。该流程包括从杂乱堆中取出一条毛巾、将其放置并铺平在桌面上、执行精确的多阶段折叠策略，以及将折叠好的毛巾运送到目标盒子中。

数据集一共972条轨迹、20小时数据，包含专家演示和纠错样本。先看奖励模型本身，进度重建MSE仅0.0014，远低于SARM的0.0059，成功、失败轨迹识别准确率全部100%，能精准捕捉机器人临时回退的进度凹陷，曲线和真值几乎重合。

进度重建的定性对比。研究团队针对一个代表性片段，将SARM和ARM的进度曲线与真实值（GT）进行可视化对比。SARM在处理非单调行为时存在困难，而ARM即使在后退调整过程中，也能重建出一条平滑、高保真且与真实值高度贴合的曲线。

进度重建定性对比。研究团队的三态方法相比人工分段与VLM方法的阶梯式曲线，能够生成更平滑、更一致的稠密进度信号。

效率方面的表现更夸张，人工三态标注每8小时能标250个样本，是传统子任务分割的2.5倍，自动三态标注单张A100每8小时处理超2000样本，效率提升20倍以上，推理吞吐量14.1 it/s，是VLM的13.7倍、SARM的3.6倍。

落到机器人实际操作层面，标准BC基线成功率62.1%，RA-BC结合SARM的方案成功率78.5%，而AW-BC结合ARM的方案直接达到99.4%，同时任务吞吐量达到32集/小时，折叠精度3.6分，满分5分，全面碾压现有方案。消融实验也证明，三态标注和AW-BC缺一不可，两者配合让成功率直接提升20.9%。

PART 07

结语与未来

这篇研究成果的价值不只是搞定一个毛巾折叠任务这么简单的事情，它把困扰机器人领域多年的奖励工程，从高门槛、高成本、高重复性的手工活，变成低成本、可自动化、可规模化的轻量流程，用相对优势解除了单调假设的枷锁，让奖励信号第一次真正适配真实世界的机器人行为，MIMO架构和全自动重建，让离线奖励学习从实验室走向实用，AW-BC则让VLA模型摆脱对完美专家数据的依赖，脏数据、乱数据也能训出好策略。

当下人形机器人、双臂机器人正从实验室走向工厂、家庭，长视界、高鲁棒、低成本的学习方案，是规模化落地的核心刚需。ARM不依赖任务特定先验，折叠、整理、装配、操作等各类长流程任务都能直接迁移。当机器人不再需要人工精调奖励，就能稳定学会复杂长时序任务，具身智能的落地，才算真正跨过拐点。

该成果将在逐际动力标准化VLA工程底座FluxVLA Engine 开源。

Github地址：https://github.com/FluxVLA/FluxVLA

来源：困扰机器人长程任务多年的“奖励瓶颈”，被这家具身智能公司一招解决了！ | 机器人大讲堂

通知

尊敬的用户

user

资讯

具身智能公司提出新方法，解决困扰机器人长程任务多年的“奖励瓶颈”问题

具身智能公司提出新方法，解决困扰机器人长程任务多年的“奖励瓶颈”问题

相关图文

智源发布业内首个开源世界模型与VLA框架VISTA

网安机构称8小时攻破具身智能机器人，警告行业安全水准堪忧

自变量机器人发布全球首个世界统一模型，35天后新一代机器人入驻真实家庭

人形机器人以50分26秒打破半程马拉松世界纪录，行业将迎来怎样的变局？

自变量机器人推出首个世界统一模型

月之暗面发布并开源新模型Kimi K2.6，自变量机器人完成近20亿元B轮融资

热门资讯

微信支付AI接入工具箱正式上线一句话即可生成收款工具

邦邦车与京东健康达成战略合作：AI+辅助出行的中国样本

智元发布GO-2具身大模型：首创动作思维链，刷新行业SOTA

智源研究院发布RoboClaw具身智能操作系统，让机器人开箱即用

谷歌新技术冲击市场美芯片股市值暴跌

国内首次发布AI红队！谋乐Elliot开创AI攻防新赛道

快讯

Agent-World搭建1978个真实场景助力智能体落地规避训练造假问题

古尔曼揭秘苹果内部会议：库克身体健康特努斯冀AI重塑产品版图

零跑汽车直播发生意外，车辆在高速路段行驶时导航界面上车道线等关键信息消失

特斯拉中国车机将接入豆包大模型，已完成备案！DeepSeek也会接入

抖音发布AIGC创作新规：严禁未经授权“换脸仿声”，强调真实消费体验

全球首个人形机器人国际标准之争中中国胜出

连接AI全产业生态，华为云创想者大会招商进入倒计时

光码未来推出低成本无磁干扰光电方案，实现指尖光学触觉与接近觉人体识别

全球首发：第七代机器人咖啡馆COFE+官宣

沪指重返4100点，创业板综指创历史新高，AI算力链再迎全线爆发

推荐专栏

爱力方

机器人大讲堂

下一篇

user

资讯

具身智能公司提出新方法，解决困扰机器人长程任务多年的“奖励瓶颈”问题

具身智能公司提出新方法，解决困扰机器人长程任务多年的“奖励瓶颈”问题

相关图文

智源发布业内首个开源世界模型与VLA框架VISTA

网安机构称8小时攻破具身智能机器人，警告行业安全水准堪忧

自变量机器人发布全球首个世界统一模型，35天后新一代机器人入驻真实家庭

人形机器人以50分26秒打破半程马拉松世界纪录，行业将迎来怎样的变局？

自变量机器人推出首个世界统一模型

月之暗面发布并开源新模型Kimi K2.6，自变量机器人完成近20亿元B轮融资

热门资讯

微信支付AI接入工具箱正式上线 一句话即可生成收款工具

邦邦车与京东健康达成战略合作：AI+辅助出行的中国样本

智元发布GO-2具身大模型：首创动作思维链，刷新行业SOTA

智源研究院发布RoboClaw具身智能操作系统，让机器人开箱即用

谷歌新技术冲击市场 美芯片股市值暴跌

国内首次发布AI红队！谋乐Elliot开创AI攻防新赛道

快讯

Agent-World搭建1978个真实场景 助力智能体落地规避训练造假问题

古尔曼揭秘苹果内部会议：库克身体健康 特努斯冀AI重塑产品版图

零跑汽车直播发生意外，车辆在高速路段行驶时导航界面上车道线等关键信息消失

特斯拉中国车机将接入豆包大模型，已完成备案！DeepSeek也会接入

抖音发布AIGC创作新规：严禁未经授权“换脸仿声”，强调真实消费体验

全球首个 人形机器人国际标准之争中中国胜出

连接AI全产业生态，华为云创想者大会招商进入倒计时

光码未来推出低成本无磁干扰光电方案，实现指尖光学触觉与接近觉人体识别

全球首发：第七代机器人咖啡馆COFE+官宣

沪指重返4100点，创业板综指创历史新高，AI算力链再迎全线爆发

推荐专栏

爱力方

机器人大讲堂

下一篇

微信支付AI接入工具箱正式上线一句话即可生成收款工具

谷歌新技术冲击市场美芯片股市值暴跌

Agent-World搭建1978个真实场景助力智能体落地规避训练造假问题

古尔曼揭秘苹果内部会议：库克身体健康特努斯冀AI重塑产品版图

全球首个人形机器人国际标准之争中中国胜出