自变量开源WALL-OSS-0.5,支持VLA预训练后直接上真机

2026年06月01日 10:57
本文共计6022个字,预计阅读时长21分钟。
来源/具身研习社 责编/爱力方

近年来,VLA 模型正变得日益强大,但却面临一个无法忽视的现实困境:所有令人瞩目的成果几乎都离不开后训练的环节。预训练模型本身,仍然难以直接部署于机器人本体之上。

当前,VLA模型的能力正变得愈发强大,但一个无法回避的现实困境也随之浮现:所有表现亮眼的成果,其关键环节几乎都依赖于后训练阶段。一个悬而未决的核心问题始终存在——预训练过程本身,是否已经使模型掌握了操作机器人的能力?如果脱离后训练,预训练模型是否能够被直接应用于机器人本体进行部署?对此,此前的研究并未给出明确的答案。

近期以来,自变量机器人对其具身基础模型WALL-OSS-0.5进行了开源,该预训练模型能够直接部署于自变量自主研发的机器人本体之上,从而执行诸如搬运、分拣、绳料整理在内的多种操作任务,甚至部分任务的效果,能够达到诸多需要经过微调的模型方可企及的水平。

若将这些结果综合来看,便会发现WALL-OSS-0.5正改变着那种「脱离后训练,模型便无法直接使用」的思维惯性。

在业界普遍强调后训练重要性的背景之下,WALL-OSS-0.5的预训练效果为何能够比肩后训练所取得的表现?此外,与传统的VLA模型相比,WALL-OSS-0.5在设计层面究竟存在哪些不同之处?

944c75f5bb7e8bc306a338b8080b4e6f.png

为什么过去的 VLA 都需要后训练?

近一两年中,整个行业中涌现出了众多VLA模型,但其中绝大多数的训练范式,本质上仍是视觉语言模型与一个外挂的动作专家模块相结合,这些模型所遵循的设计流程通常如下所示。

近年来,VLA 模型的能力正变得日益强大,但却面临一个无法忽视的现实困境:所有令人瞩目的成果几乎都离不开后训练这一环节。一个悬而未决的核心问题始终存在——预训练过程本身,是否已足以使模型掌握操作机器人的能力?如果完全脱离后训练,预训练模型是否能够被直接应用于机器人本体并进行部署?对此,此前的研究并未给出明确的答案。

随后,在模型的顶部再附加一个动作专家模块(Action head),专门用于动作的预测;

近年来,VLA 模型的能力正变得日益强大,但却面临一个不可忽视的现实困境:所有令人瞩目的成果,其关键环节几乎都依赖于后训练阶段。一个悬而未决的核心问题始终存在——预训练过程本身,是否已足以使模型掌握操作机器人的能力?如果完全脱离后训练,预训练模型是否能够被直接应用于机器人本体并进行部署?对此,此前的研究并未给出明确的答案。

近期,“自变量机器人”开源了其具身基础模型 WALL-OSS-0.5,该预训练模型能够直接部署于该公司自主研发的机器人本体之上,从而执行诸如搬运、分拣、绳料整理在内的多种操作任务。部分任务的效果,已达到甚至超越许多经过微调模型的水平。

综合来看这些结果,便会发现 WALL-OSS-0.5 正在改变那种“脱离后训练,模型便无法直接使用”的思维惯性。

在业界普遍强调后训练重要性的背景之下,WALL-OSS-0.5 的预训练效果为何能够比肩后训练所取得的表现?此外,与传统的 VLA 模型相比,WALL-OSS-0.5 在设计层面究竟存在哪些不同之处?

近一两年中,行业内部涌现出了众多 VLA 模型,但其中绝大多数的训练范式,其本质仍是视觉语言模型与一个外挂的动作专家模块相结合。这些模型所遵循的设计流程通常如下所示:

近年来,VLA 模型的能力正变得日益强大,但却面临一个不可忽视的现实困境:所有令人瞩目的成果,其关键环节几乎都离不开后训练这一环节。一个悬而未决的核心问题始终存在——预训练过程本身,是否已足以使模型掌握操作机器人的能力?如果完全脱离后训练,预训练模型是否能够被直接应用于机器人本体并进行部署?对此,此前的研究并未给出明确的答案。

随后,在模型的顶部再附加一个动作专家模块(Action head),专门用于动作的预测;

这三个步骤在表面上看来逻辑链条清晰且流畅,然而,其中实则潜藏着一个关键问题:作为核心的主干模型,其自身并不具备直接执行动作的能力。该模型主要习得的是世界通用知识、对视觉信息的理解能力以及语言交互能力;至于操作物体所需的具体动作能力,则被专门放置在一个外挂的动作专家模块当中。

因此,随着行业实践的不断推进,人们逐渐认识到,尽管机器人主干模型的规模正变得日益庞大,但真正负责执行具体动作的,实际上仍然是后端的、相对较小的动作专家模块(Action expert)。

这好比一位博士专注于理解世界,而一位实习生则负责动手操作。博士虽然知识渊博,但并不直接处理具体事务,真正执行任务的,是其背后的小型模块。

因此,模型规模的扩大并不必然带来动作执行能力的提升,其根本原因在于,负责视觉信息理解的主干网络与负责物理动作生成的外挂模块之间,在架构层面存在着固有的解耦。

这也就解释了,为何绝大多数的VLA模型都需要通过针对性的后训练,才能适应具体的操作任务。

由于在预训练阶段,主干模型实际上并未真正掌握执行操作的能力,它本质上只是一个性能较强的视觉语言理解器。

而 WALL-OSS-0.5 的核心设计之一,实质上在于使主干模型自身习得动作执行能力。

WALL-OSS-0.5 让不同信号各归其位

WALL-OSS-0.5 模型所聚焦的核心目标,在于使 VLM 主干能够真正掌握具备泛化能力的操作技能。正因如此,它需要依次应对三个层层递进的建模问题。

如何让动作真正进入主干模型

何以实现预训练模型的零样本能力?一个关键的前提在于,动作能力不能仅仅作为外挂模块存在,而必须成为基础模型架构的核心组成部分,从而使模型真正掌握执行操作的内在能力。

dc98944bed782f194ff6f47cd53db0ce.png

为此,WALL-OSS-0.5 采取了一项关键性设计,即对动作进行Token化处理,随后将其纳入语言模型的训练流程。

研究团队提出了一个名为 Gradient-Bridge 的设计,这是因为过去的VLA模型通常是从图像输入到主干网络,再到动作头进行处理,并且动作监督信号仅仅停留在动作头(Action head)层面。

通过采用 Gradient-Bridge 这一设计,当前的处理方式转变为将图像、文本以及动作 Token 整合为同一自回归序列。在此框架下,动作信息如同语言模型中的文本一样被逐个预测。该模型运用交叉熵损失函数来学习动作 Token 的分布,并使梯度信号得以直接反向传播并更新主干模型的参数。

这一改变使得主干模型得以主动学习动作生成,从而在预训练阶段便将视觉感知、语言理解与动作执行整合到同一套表征体系之中。机器人的动作能力不再以外部模块的形式存在,而是成为了基础模型的内在组成部分。

当主干模型真正掌握了动作执行的能力,预训练模型才可能具备零样本迁移的能力,否则,对于各种新的任务,就只能依赖后训练来弥补。

论文中开展的消融实验结果相当明确:若将 Gradient-Bridge 设计移除,那么模型在真机测试中的成功率便会表现出显著的下滑。并且,模型参数规模越大,这种性能衰退的现象就越为突出。这进而说明,随着模型规模的增长,将动作监督信号直接引入主干网络进行训练的重要性也相应提升。

动作 Token 不能只是数字压缩

在整个设计过程中,仅仅将动作进行Token化处理,实际上并不足以解决所有的问题。在此过程中,实际上存在一个隐性问题,即主干模型所学习的究竟是「动作语义」,还是仅仅是「动作编号」?

如果Token仅是对数值进行机械压缩后所得到的编号,那么模型在预测动作Token时,其本质上便只是在猜测下一个数字,而并非真正理解该动作会导致画面发生怎样的变化。如此一来,Gradient-Bridge所传入的便只是一堆缺乏实际意义的编码,主干网络所习得的仍然只是统计规律,而非物理世界中具备可操作性的结构。

对此,WALL-OSS-0.5 选择重新训练一个与视觉信息对齐的动作tokenizer,其核心逻辑在于:一个动作Token并非仅仅代表动作本身,它还应当能够表征这个动作会促使世界状态发生怎样的变化。

基于此,团队强制使Token表征与视觉特征之间实现对齐,同时要求其对下一帧的视觉变化作出预测。借助这一设计,每个动作Token得以同时承载两层含义,其一为动作压缩信息,其二则为世界变化信息。

基于这一设计,机器人将得以预测世界后续的变化情况,而非仅仅输出简单的数字。

如何使连续动作真正掌握「关键轨迹」?

然而,尽管动作 Token 化在语义层面具有显著优势,但机器人系统最终需要执行的,是连续的物理动作轨迹,而并非离散的 Token 序列本身。这便构成了一项关键挑战:模型在 Token 化的抽象表征层面进行了学习与推理,但其决策输出必须满足下游控制器对连续、平滑且可执行轨迹的实际需求。因此,必须建立一种有效的机制,将模型生成的离散动作 Token,精确地解码还原为符合机器人动力学约束的连续动作序列,以确保模型的高层决策能够最终落地,转化为真实的物理操作。

d8bdc1bf91c68068c3b65c6767659c44.png

在这一方面,WALL-OSS-0.5采用的是Flow Matching(流匹配)技术,不过,其设计与传统Flow Matching方式存在差异,这是因为传统方法往往在优化过程中存在一定的“平均化”倾向。

在机器人的轨迹之中,某些部分显得至关重要,而另一些则相对次要。以机械臂抓取杯子的任务为例,其关键之处在于对准杯口、规划靠近的路径以及调整正确的抓取姿态,至于那些高频细微的抖动,往往不会对最终结果产生实质性的影响。

但传统的 Flow Matching 方法会投入大量计算资源,用以拟合这些高频噪声,从而导致模型的大量算力被浪费在相对次要的方面。

因此,WALL-OSS-0.5 在这一方面做出了相应的调整:不再对速度进行预测,而是转为直接预测动作。

基于此,模型的训练过程会从根本上更侧重于学习关键的轨迹结构,而非拟合那些无意义的高频抖动。

也就是说,它使模型将学习预算投入到如何完成任务本身,而并非去复刻每一个细枝末节。

最后一道关卡:把训练真正跑起来

经过上述一系列设计,如何让训练过程得以稳定且有效地展开,便成为一个更具挑战性的议题。然而,三项关键改进的集成,也同时引入了一个伴随而生的工程难题,即模型内部不同组件的参数尺度与所接收的梯度强度,呈现出高度异质化的特征。其成因在于:

VLM 主干来自预训练

Action head 从头训练

多路损失一起优化

梯度尺度将会出现严重的失衡现象,为此团队又开展了一项系统层面的优化工作,即DMuon。

其本质在于,将高效优化器Muon所带来的巨大计算开销,压缩至几乎可以忽略不计的程度。训练成本从原本接近2倍的水平,降低至仅需0.02倍,并且能够以即插即用的方式,嵌入到现有的训练流水线当中。

与传统 VLA 模型相比,WALL-OSS-0.5 进行了相当多的改动,这些改动所赋予的能力在具体的任务执行当中也得到了充分体现。

具体效果到底如何?

在团队所开展的实验中,WALL-OSS-0.5 展现出了最为关键的零样本泛化能力。

在涵盖了语义操作、柔性操作以及长程任务等多项真实机器人测试当中,全程未经过任何微调,预训练完成后的模型直接部署至真实机器人之上。

169ad322bc277281bd1047e1ee2daf9d.png

最终结果表明,模型在包括积木分类、水果分拣以及圆环套柱在内的多项任务中,其任务进度均达到了85%以上;甚至对于在训练数据中从未出现过的、诸如绳索拉紧这类可变形物体操作任务,也取得了82%的任务完成进度,这在当前已开源的视觉语言动作(VLA)模型中是较为罕见的。

而在十余项真实机器人任务所开展的公平对比实验当中,所有模型均基于相同的数据集以及相同的微调预算进行训练。

f09f88bc4e1420a14fc0c583bc9627b7.png

实验结果表明,Wall-OSS-0.5 在操作类任务方面展现出显著优势,领先于 π₀.₅ 等同类开源模型,且领先幅度超过了 25 个百分点;在需要推理判断的任务上,其表现也同样保持了稳定的优势。

而且需要注意的是,模型的多模态理解能力并未因侧重动作训练而出现衰退。尤其在与机器人执行高度相关的具身定位任务方面(即在机器人视角下准确指出操作目标的位置),Wall-OSS-0.5 相较于原版 VLM 骨干,其表现提升幅度超过了 20 个百分点。

24a829559eeeeddd8b25af215fb46da2.png

团队指出,这恰恰印证了其所提出的「梯度桥接」协同训练方案的有效性,并表明动作学习与视觉语言理解并非零和博弈,而是能够相互促进的。

预训练即策略,为行业打开新思路

在过去很长一段时间里,受到大语言模型(LLM)的影响,具身领域的VLA模型也沿袭了一条与之相似的路径,预训练阶段仅仅是为模型奠定一个「好底子」,而真正执行具体任务的能力,则需要借助下游任务的微调才能够得以激发出来。

因此,业界形成了一种默认共识:即便预训练权重再优秀,若不进行针对真实机器人的微调,便不能被视为可用的策略。

但 Wall‑OSS‑0.5 的发布,正试图打破这一惯性思维。

从这些任务表现中可以看出,基于自变量自研的机器人本体,预训练模型已开始展现出直接部署的可能性。对于具身行业而言,这构成了范式层面的重要转变。

过去,行业默认的路径是先进行预训练,再针对具体任务进行适配,最终才进入真实场景。

而 WALL-OSS-0.5 所尝试探索的,则是另一条不同的方向,即让模型真正具备预训练完成后即可直接部署的能力。当然,这种能力的实现,并非简单地依赖于「更大模型」的参数规模而达成的。

为此,自变量团队对模型架构进行了相当彻底的设计调整,无论是 Gradient-Bridge 协同训练、视觉对齐的动作分词器,还是动作空间 Flow Matching,亦或是推动训练真正得以落地的 DMuon 优化器,这些创新都为行业提供了一个全新的视角,用以审视 VLA 模型如何能够更好地融入真实世界的应用场景。

6064c88607f5ad1d7e4b1a8e7affc683.png

不过值得指出的是,Wall-OSS-0.5在零样本任务中所展现出的能力,是在该公司自主研发的机器人硬件平台上得以验证的。若要将其跨本体进行使用,并维持原有的性能水平,依然需要进行一定程度的微调适应。实验数据表明,当硬件平台之间的结构差异较大时,模型性能的波动范围也可能随之增大。鉴于此,如何让模型具备跨硬件的通用操作能力,将成为未来研究的重要方向。

此外,团队针对每一项设计,均配套开展了相应的消融实验以及工程验证,用以阐明各个模块究竟解决了哪些具体问题,以及移除后会引发怎样的性能变化。

而且在工程实现层面,团队同步开放了DMuon优化器等一系列系统级基础设施。因此,本次WALL-OSS-0.5的开源,实质上更是一套具备可复现性的完整训练方法论的公开。

对于希望训练大规模VLA模型的研究人员而言,这种能够直接复用到训练流水线当中的基础能力,可以进一步降低社区在复现以及扩展层面的门槛。

这同时也意味着,业界将不必再重复进行基础架构与方法的构建,从而得以从相同的起点出发,加速后续的模型迭代与优化进程。

对于整个具身智能行业而言,各家公司所面临的核心问题往往具有高度一致性;而将机器人引入日常生活的应用场景,亦是行业的共同愿景。因此,构建开源生态、推动协同发展,便构成了近年来行业向前迈进的主要脉络。

来源:VLA 终于摆脱后训练了?自变量开源 WALL-OSS-0.5,预训练完直接上真机 | 具身研习社

声明:本文来自具身研习社,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。
0
TAGS: []

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/