让机器人先学动作语言:LA4VLA 重新拆解 VLA 预训练

2026年06月30日 19:54
本文共计6490个字,预计阅读时长22分钟。
来源/具身研习社 责编/LehuoChufang 乐活厨房

如果要对一个机器人开展依据语言完成操作的训练,我们通常会想到一个很自然的方案:让模型同时看到图像、读取到指令,并根据当前状态对动作进行预测。这正是近年来Vision-Language-Action(VLA)模型中最常见的训练范式。

然而,联合训练并不意味着模型就真正理解了语言。其中图像往往包含了目标位置、物体姿态、场景布局等直接线索,而语言指令在一整段示范当中常常只出现一次。因此,一个看起来会执行指令的VLA策略,未必真正学清楚了语言如何约束动作。

LA4VLA: Learning to Act without Seeing via Language-Action Pretraining 正是围绕这一点来展开相关工作。它所提出的不是“机器人最终不需要视觉”,而是一个更具体的问题:是否能够先把 language-action supervision 从标准 VLA pretraining 中拆解出来,让模型在暂时没有视觉输入的阶段,先对指令和动作轨迹之间的对应关系进行学习?

这样做的目的是让模型首先对更基础的动作语言规律进行掌握:其中动作词对应哪些局部操作,方向词如何影响末端运动,夹爪状态以及持物状态又如何改变动作模式。之后再将这种能力与视觉 grounding相结合,用于完整的 VLA 策略学习。

PART 01

在标准VLA训练过程当中,语言指令容易被模型“看不见”的原因在于视觉提供了丰富的直接线索。其中图像通常包含了目标位置、物体姿态以及场景布局等信息,模型可以直接借助这些视觉特征来预测后续动作。同时语言指令往往只在示范序列的开头出现一次,导致其信号在长序列训练中被大幅稀释。因此模型倾向于依赖视觉捷径开展动作预测,而并未真正掌握语言如何对动作进行约束。

a856bbefc6d390214fbbf2459c77f27d.png

在标准的机器人示范过程当中,一条轨迹通常会包含大量连续视觉帧、机器人状态以及动作序列,但自然语言部分却往往仅提供一句高层任务描述。例如一句“clean the table”,它实际上可能会覆盖靠近物体、抓取、抬起、移动、放置等多个局部操作阶段。

这便会在数据层面形成一种不对称的情况:其中视觉和动作几乎每一帧都在发生变化,而语言在整条轨迹中基本保持不变。训练过程中,模型所接触到的是大量密集的 visual-action 或 state-action 对,但局部动作阶段与具体语言成分之间的联系并没有得到明确展开。

在输入层面也存在类似的情况。其中视觉观测通常被编码成大量 visual tokens,而语言指令只占较小的比例。对于动作预测而言,从图像中找到目标位置或场景线索往往更为直接;相比之下,学习“语言如何决定动作方向和操作方式”这一过程反而可能被弱化。

因此,标准VLA策略虽然在原始配对输入条件下可以取得良好表现,但这并不能完全说明它已经建立了稳定的语言与动作之间的对应关系。真正需要开展验证的工作在于:当视觉输入被移除、替换,甚至与语言发生冲突时,模型是否依然会沿着语言所指定的方向来执行动作。

PART 02

在标准VLA模型中,当语言和视觉发生冲突时,模型会跟随视觉。[[1]](https://arxiv.org/abs/2606.27295)

论文的诊断实验明确显示:研究者构造了visual-conflict输入(即使用与语言指令指示的运动方向相反的视觉观测),标准VLA模型的动作预测会强烈偏向视觉所暗示的方向,而不是语言指令。量化指标上,Direction Alignment Ratio (DAR) 显著下降至0.35(随机基准为0.5),Direction Consistency Score (DCS) 甚至低至0.03,表明模型几乎完全被冲突的视觉线索所主导。[[2]](https://arxiv.org/html/2606.27295v2)

这是因为在常规的联合训练中,视觉帧提供了丰富、每帧都在更新的目标位置、物体姿态和场景布局等直接线索,而语言指令通常仅在轨迹开头出现一次,信号被大幅稀释。模型因此学会了依赖视觉捷径(visual shortcuts),表面上能执行指令,实质上并未牢固建立语言对动作的约束关系。[[1]](https://arxiv.org/abs/2606.27295)

LA4VLA的工作正是针对这一诊断提出的。它先在无视觉输入的条件下进行Language-Action预训练,让模型单独学习动作词与局部操作、方向词与末端运动、夹爪/持物状态与动作模式的对应规律,再将这一先验融入完整的VLA训练。这样做显著提升了模型在冲突场景下的语言跟随能力(更高的DAR和DCS),证明了将language-action supervision解耦出来预训练的价值。[[1]](https://arxiv.org/abs/2606.27295)

简言之,标准模型跟视觉走;而LA4VLA通过先建立纯语言-动作对应,再接地到视觉,引导模型更真正地“听懂”语言。

为了回答这一问题,LA4VLA设计了一项方向跟随诊断实验。该实验保持语言指令不变,只对视觉输入进行改变,进而观察模型输出的动作轨迹是否仍然符合指令所指定的方向。

b11a898dcdebe6c22bdb7af139643a7d.png

实验中选取了方向信息明确的原子指令,例如“move upward to approach the target”以及“move downward to approach the target”。随后研究者构建了四种输入设置,分别是原始配对视觉、无视觉输入、同场景但不匹配的视觉输入,以及来自相反方向动作片段的冲突视觉输入。

在原始配对输入条件下,模型确实能够对相反方向的指令进行区分:其中轨迹可以实现分开,而且端点也大致位于指令所指定的方向上。但一旦视觉输入被移除或替换,原本清晰的方向结构就会迅速变弱,轨迹也变得更加混乱。

更关键的在于冲突视觉设置的方面。此时语言指令仍然要求模型朝着某个方向来进行运动,但视觉输入却来源于相反方向的动作片段。结果显示,模型所预测出的轨迹会更加容易偏向于视觉所暗示的方向,而不是语言所给定的方向。换句话说,它并不是单纯变得不确定,而是在冲突当中更倾向于跟随视觉线索。

这一现象清楚表明,标准VLA pretraining虽然可以带来表面上的instruction following,但这种行为可能高度依赖于原始配对视觉输入。如果language-action supervision始终被包裹在视觉主导的训练过程当中,模型就很容易形成视觉捷径。

PART 03

LA4VLA:把语言-动作监督单独暴露出来

LA4VLA所采用的核心思路,是首先从标准VLA训练过程当中拆解出一个vision-agnostic的Language-Action Pretraining阶段。

在这个阶段当中,模型不会接收视觉输入,它仅仅依赖语言指令以及机器人状态对连续动作轨迹进行预测。因此它不能依赖于图像中的物体外观、目标位置或场景布局,而只能从指令本身出发推断动作应该如何发生。

这里的监督并非粗粒度动作类别,而是更细致地实现了局部语言描述与连续动作之间的对应关系。例如:

In holding the object at same time lower the object downward toward the target.

对应的是在持物状态下,将物体朝目标方向进行下放的操作;

对应的是在持物状态下,将物体向右进行运输的操作;

对应的是在持物状态下,将物体沿水平方向向右进行移动的操作;

对应的是打开夹爪,将物体释放并放置到目标表面上的操作;

对应的是打开夹爪的操作过程,从而将物体释放并置于目标表面。

这些描述不仅包含了动作的类型,而且还纳入了方向信息、夹爪的状态、是否持物的情况以及所产生的局部物理效果。它们尽可能减少对具体物体外观或场景布局的依赖,因此更适宜作为跨任务、跨场景条件下可复用的language-action regularities。

从这一角度来看,LA4VLA 并非简单地往 VLA pretraining 之中增加数据,而是在重新定义一个预训练信号:首先让模型学习语言如何对动作施加约束,随后再让视觉输入负责具体场景中的 grounding。

PART 04

LA-33K:将长轨迹拆解为得以进行训练的语言-动作片段

若要实现独立的Language-Action Pretraining,首先就需要准备相应的数据。LA4VLA并没有重新采集机器人示范,而是对已有VLA demonstrations开展了重新组织的工作。

一条原始 VLA 轨迹通常仅对应一条高层指令,但轨迹内部包含多个短时原子动作阶段。LA4VLA对这些长轨迹进行切分处理,将其分解为 atomic action segments,并为每个片段配以更局部的动作描述,使原本隐藏在完整示范中的语言-动作监督得以显式提取出来。

在具体构建过程之中,该方法借助关键帧检测、原子动作类别约束、VLM temporal segmentation 以及人工核验,将标准 VLA 数据转化为 vision-agnostic 的 LA episodes。最终数据得以覆盖 move、grasp、lift、transport、place、reorient、lower 等常见操作类别。

a8e65c0784f5d2192adca646639c8f50.png

最终通过分解原始VLA轨迹并经过人工核验所得到的LA-33K包含了33116条Language-Action episodes,总计1524990帧,平均每条episode为46.05帧。与原始VLA轨迹相比,这些片段长度更短、关注范围也更为局部,因此更加适宜于直接学习指令与动作轨迹之间的关系。

也就是说,LA-33K的核心价值并不局限于数据规模这一方面,而是将language-action supervision从标准VLA demonstrations之中独立提取出来,使其成为一种可以单独进行训练和分析,并且能够与VLA pretraining进行组合的监督信号。

PART 05

实验结果显示:移除视觉输入这一做法并未削弱预训练过程,反而为其带来了性能上的进一步提升。

LA4VLA在仿真benchmark、跨架构设置以及真实机器人任务中均开展了验证。首先,单独LA pretraining就已经取得了明显的收益。

在 LA4VLA-1B 上,MetaWorld 从 69.73% 提升到 83.00%(+13.27 pts),LIBERO 从 92.85% 提升到 95.30%(+2.45 pts)。

在 StarVLA 架构之上,同样的 LA pretraining protocol 成功实现了 MetaWorld 性能的提升,将其从 58.39% 提高到了 69.91%,同时也实现了 LIBERO 性能从 93.70% 到 94.85% 的提升。

在真实机器人任务中,平均成功率从38.3%提升到81.7%,所实现的提升达到了+43.4 pts。

这些结果清晰表明,LA pretraining 所学习到的并非局限于某个特定模型或特定仿真环境中的偶然规律。即使在预训练阶段不使用视觉输入,模型仍然可以获得对于下游 VLA 策略具有帮助意义的语言-动作表示。

更为直接的对比来自于matched VLA pretraining:在相同原子动作片段上,保留视觉输入来进行VLA pretraining,其效果反而不如移除视觉输入来进行LA pretraining。MetaWorld上,VLA为79.78%,LA为83.00%;LIBERO上,VLA为94.40%,LA为95.30%。

这表明,移除视觉输入的做法并非只是简单减少了可用信息,而是在预训练阶段改变了模型所关注的监督信号。在没有图像可以依赖的情况下,模型必须更加集中地学习instruction与action trajectory之间的对应关系,而这种学习对后续策略会产生更大的帮助。

ac85b9850f549c9a7266f1a02747ac6e.png

PART 06

LA 和 VLA 可以如何组合?

LA4VLA 进一步对多种预训练策略开展了比较工作:No 所代表的是直接下游微调;VLA 所代表的是标准视觉-语言-动作预训练;LA 所代表的是无视觉的语言-动作预训练;LA-VLA 所代表的是先进行 LA 后进行 VLA;MixPT 所代表的是在同一阶段混合 LA 以及 VLA 数据。

在 MetaWorld 上,No 69.73% → LA 83.00% → LA-VLA 86.75% → MixPT 87.53%。在 LIBERO 上,No 92.85% → LA 95.30% → MixPT 95.75% → LA-VLA 96.28%。

真实机器人实验同样支持了这一结论。Press Button、Place Book以及Place Drink这三个任务均要求机器人根据语言目标来选择正确的操作对象或位置。平均成功率从No的38.3%提升到VLA的48.3%,进一步达到了LA的81.7%以及MixPT的83.3%。

在视觉扰动条件下,平均成功率也从 No 的 27.5% 成功提升到 VLA 的 42.5%、LA 的 67.5% 以及 MixPT 的 70.0%。这一结果表明 LA supervision 与 VLA supervision 之间并不是替代关系:前者所提供的是更为独立的语言-动作规律,后者则负责视觉 grounding 的工作,二者能够实现有效互补。

PART 07

为什么说模型真的更懂“动作语言”?

除了最终成功率,LA4VLA还进一步对模型的方向跟随行为以及内部表示开展了观察。

在经过LA pretraining之后,即便不存在视觉输入作为条件,模型依然可以依据相反方向的指令预测得到界限清晰且相互分开的轨迹。这表明动作方向已经不再主要依赖于同视觉线索所形成的配对关系,而是可以更稳定地受到语言约束的指导。

t-SNE可视化也呈现出了类似趋势:在标准VLA-trained policy的表示中,不同方向指令所对应特征容易混杂在一起;而LA-pretrained policy的表示则会按照指令方向形成更清晰的聚类,相反方向也被分到不同区域。

f290b599f70903fa02f93b15d42547db.png

换句话说,LA pretraining所改变的并不只是最终成功率这一指标,它还改变了模型在进行动作预测之前形成表示的具体方式。它让模型得以在内部更加清楚地编码了instruction-conditioned action patterns。

PART 08

总结:先拆开学,再合起来用

LA4VLA所实现的贡献并不局限于提出LA-33K这一数据集,也不局限于为某个VLA模型增加一个训练阶段。它所具备的更重要意义在于,成功把Language-Action Pretraining作为一个独立的问题,从标准VLA Pretraining过程之中拆解了出来。

在方法层面,LA4VLA提出了vision-agnostic language-action pretraining这一范式,从而使得模型得以在无视觉输入的情况下显式学习语言对动作所施加的约束。

在数据层面上,LA-33K借助已有机器人示范提取出了33116条经过人工核验的Language-Action episodes,从而不需要进行额外机器人数据的采集工作。

在训练层面,该工作系统性地比较了LA-only、sequential LA-to-VLA以及mixed LA-VLA pretraining,从而验证LA supervision既能够独立发挥有效作用,也可以与VLA supervision形成互补。

实验层面上,该方法在MetaWorld、LIBERO、StarVLA仿真基准、真实机器人任务、视觉扰动鲁棒性、方向跟随和表示分析等方面均得到了验证。

VLA模型最终当然需要观察所处的世界,然而这一需求并不意味着模型所具备的所有能力都必须从视觉输入开始进行学习。LA4VLA所提出的观点在于:首先让模型在没有视觉输入的条件下学会语言如何对动作施加约束,随后再将这种规律与视觉grounding过程进行结合,这样或许能够让VLA策略在真实任务执行过程中变得更加稳健。

Learning to Act without Seeing这一做法,并非旨在让机器人不去观察所处世界,而是为了让机器人在获取视觉信息之后,可以更好地运用语言所提供的约束来指导动作执行过程。

来源:让机器人先学动作语言:LA4VLA 重新拆解 VLA 预训练 | 具身研习社

声明:本文来自具身研习社,版权归作者所有。文章内容仅代表作者独立观点,不代表爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。
0
TAGS: []

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 爱力方

https://www.agentren.cn/