ATHENA将影响函数扩展到十亿参数VLA,实现313倍加速筛选高价值数据
本研究作者团队主要由上海交通大学RHOS李永露团队、同济大学GEAI实验室与上海创智学院的人员构成,他们长期专注于具身智能这一前沿领域,并围绕其中的世界模型构建、数据高效管理以及因果推理与理解等核心方向,开展了持续且深入的研究工作。
具身智能正进入一个以大规模数据驱动为特征的扩展时代。Vision-Language-Action(VLA)模型,简称为VLA,赋能机器人从大规模的示范数据(demonstrations)中学习,从而掌握更为通用的操作策略。然而,对于机器人的VLA模型训练而言,数据量并非总是越多越好:低质量的数据有可能拖累模型的整体性能,并且每一条示范数据的产生都意味着高昂的人力采集成本、机器人运行成本,以及相关的云端存储与训练开销。
因此,一个问题变得愈加关键:应当如何对云端数据池当中每一条机器人的示教轨迹进行价值量化评估?
为了从根本上解答这一问题,研究团队提出了ATHENA,这是一种专门面向十亿参数级多任务VLA模型的数据筛选框架。该工作来自上海交通大学、同济大学、上海创智学院以及西安交通大学等多家机构的研究人员。该方法将影响函数技术,简称IF,成功扩展到了十亿参数级的多任务机器人VLA微调任务中。它能够从因果层面开展量化分析,估计每一条示范数据对下游机器人任务成功率的具体影响程度,进而基于此量化指标筛选出高价值数据样本。
论文标题:ATHENA: Accelerated Multi-Task Heterogeneous Influence Functions for Robot Data Curation
论文地址:https://arxiv.org/abs/2606.16208
项目主页:https://sii-quantum.github.io/ATHENA.github.io/
为什么需要评估机器人数据价值?
过去,在机器人数据管理方面,通常依赖于人工经验,或采用轨迹长度、动作平滑度等启发式规则。这些方法衡量的大多是人类偏好的「数据外观质量」,却缺乏与下游闭环任务表现之间的因果关联。
而影响函数则提供了一种更为原则化的技术路径:它能够以较低的计算成本,去估计将某个训练样本加入或移除之后,模型在下游闭环任务上的性能所发生的变化。换句话说,该方法可以借助更加因果化的方式来回答一个核心问题:「如果保留或移除这条 demonstration,机器人最终的任务表现会得到改善还是恶化?」
但传统的影响函数方法通常针对小参数模型与单任务场景进行设计,难以直接应用于十亿参数级的多任务机器人VLA模型。一方面,逐样本梯度的计算与投影需要在庞大的参数空间中展开,对于十亿参数级的VLA模型而言,这会带来显存与时间上的巨大开销。另一方面,在多任务场景下如果仅进行全局排序,梯度信号较强的任务可能会主导筛选结果,导致部分任务的数据被过度丢弃。因此,ATHENA需要同时解决计算效率与筛选准确性这两个关键问题。
ATHENA:把影响函数推进到
十亿参数级别的多任务 VLA

ATHENA框架的整体技术路线可以概括如下:首先,利用全部的示教数据对VLA模型进行微调;然后,执行模型评测以收集闭环评估轨迹(rollouts),从而获得模型性能的初步估计;进而,从因果层面量化每条训练示教对评估轨迹的具体影响程度;最后,基于这些量化指标进行筛选,并使用筛选出的高质量数据子集重新微调模型。
具体来说,ATHENA 做了两件事:
第一,ATHENA借助Kronecker结构来压缩逐样本梯度,并运用随机截断技术以加速稠密Hessian逆的近似过程。具体而言,线性层的权重梯度天然具有外积的形式结构,因此ATHENA并不需要显式地构造出完整的参数梯度,而是会分别将输入激活值与反向传播的误差信号投影至低维空间,之后再将两者组合成低维特征表示。与此同时,通过随机截断近似的方法,ATHENA得以保留梯度空间中的主要低秩子空间,这有效地降低了对复杂Hessian矩阵进行求逆计算的负担。正是这些技术上的优化,才使得在十亿级别的VLA模型上精确计算每条数据的影响分数成为了可能。

为解决多任务VLA模型训练中可能产生的失衡问题,该研究进一步提出了Multitask Influence Interaction(MII)方案。该方案首先分别计算每条示范数据对其所属任务下游性能的局部任务影响(local-task influence),以及对其他任务下游性能的跨任务影响(cross-task influence),随后依据这两类影响的综合指标进行排序。通过这种机制,能够避免在进行全局多任务排序时,梯度信号较强的任务主导筛选过程,从而确保筛选结果既能保留各任务内部的关键样本,又能兼顾跨任务的全局交互效应。
计算效率:从 8054.6 到 25.7 GPU 小时
影响函数过去之所以难以被直接应用到具身VLA模型当中,核心原因之一便是其计算成本问题。ATHENA在这一方面取得了显著的系统性收益。
在50项任务、总规模约560.5千步(timesteps)的训练设置下,若采用传统的投影影响函数方法而不进行任何计算优化,其流程大约需要消耗8054.6个GPU小时。而ATHENA借助其高效的计算框架,将这一耗时大幅压缩至仅25.7个GPU小时,实现了约313.4倍的加速。这一突破性的效率提升,标志着影响函数方法首次能够被实际应用于对十亿参数级多任务VLA模型进行数据管理与筛选。
实验结果:数据更少,反而更强

研究团队采用了基于JAX框架的π系列VLA模型来开展相关实验。首先,研究人员在RoboTwin 2.0仿真基准平台上,依据官方设定的参数,对包含了50个任务与2500条干净配置下示范轨迹的数据集进行了训练,该数据集总计耗时9.34小时,涵盖了大约560.5K个时间步。随后,他们在干净配置与随机化配置这两种不同的评测环境中,对模型性能进行了评估测试。
在使用ATHENA框架分别保留90%和50%的示范数据进行微调后,其在clean与randomized测试环境下的50项任务平均成功率呈现出显著优势。具体而言,当保留90%的示范数据时,ATHENA的成功率分别达到44.70%与17.72%,相较于全量数据微调所取得的43.42%与15.44%均有所提升。进一步地,当数据筛选比例达到50%时,ATHENA在clean环境中的性能与全量训练基本持平,而在randomized环境中则表现出更强的鲁棒性,其平均成功率达到30.33%,超越了全量训练所实现的29.43%。
在真实机器人实验环节,研究团队基于 ALOHA 真实机器人平台,共设计了 6 项任务。这些任务涵盖了三个难度层次:简单任务层面包含 Pick Fruits 与 Wipe Board;中等任务层面包含 Stack Bowls 与 Box Return;困难任务层面则包含 Seal Stamping 与 Shelf Retrieval。该数据集总计包含了 720 条高质量 demonstrations,总时长达到 6.9 小时。针对每个任务,均执行了 25 次物体位置随机化测试。
实验结果显示,对于单任务单独训练的方案Single-100%,其平均成功率为46.7%,而采用全量数据进行联合训练的方案Joint-100%,则将平均成功率提升到了60.0%。然而,ATHENA方法仅使用66.7%的数据,便能够达到68.0%的平均成功率,这一结果不仅超过了Single-100%和Joint-100%所使用的全量数据训练,同时也显著优于随机筛选66.7%数据的Random-66.7%方案,以及基于人工先验偏好的Oracle-66.7%方案。这表明,人类主观上认为那些「看起来更优质」的数据,未必在实际上能够更有效地促进下游闭环策略的性能表现。

可视化展示:
Pick Fruits

Wipe Board

Stack Bowls

Box Return

Seal Stamping

Shelf Retrieval

总结
ATHENA对具身智能迈入规模化发展阶段后所必然面临的核心问题给出了明确回答,即如何对每条demonstration在下游闭环任务中所具备的价值进行量化评估。
它成功将影响函数技术从仅适用于24M参数级别小模型与单任务范式的场景,拓展至十亿参数VLA模型与多任务联合训练的复杂环境。通过借助Kronecker梯度压缩技术以及随机截断近似方法,该研究实现了计算效率的显著提升,具体表现为将50项任务的影响函数计算耗时从8054.6 GPU小时大幅缩减至25.7 GPU小时。此外,借助多任务影响交互建模机制,ATHENA使得数据管理策略能够同时兼顾样本对本任务的贡献度以及其可能产生的跨任务影响。实验结果表明,ATHENA通过这一高效的数据管理方法,在运用「更少但价值更高的数据」的情况下,于仿真环境与真实机器人平台上均取得了更优表现。
而随着机器人数据规模的日益增长,这种能够从因果角度对数据价值进行高效评估的方案将变得愈发重要。ATHENA方法不再仅仅依赖于人类偏好或既有经验来判断数据质量,而是从下游闭环任务的实际价值出发,对每一条demonstration进行量化评估,这为大规模机器人数据的筛选提供了一条具备可行性的解决思路。
来源:怎么量化机器人数据价值?ATHENA将影响函数扩展到十亿参数VLA,313×加速筛选高价值数据 | 具身研习社