自变量开源WALL-OSS-0.5，支持VLA预训练后直接上真机

2026年06月01日 10:57

本文共计6022个字，预计阅读时长21分钟。

来源/具身研习社责编/huazi56 爱力方

近年来，VLA 模型正变得日益强大，但却面临一个无法忽视的现实困境：所有令人瞩目的成果几乎都离不开后训练的环节。预训练模型本身，仍然难以直接部署于机器人本体之上。

当前，VLA模型的能力正变得愈发强大，但一个无法回避的现实困境也随之浮现：所有表现亮眼的成果，其关键环节几乎都依赖于后训练阶段。一个悬而未决的核心问题始终存在——预训练过程本身，是否已经使模型掌握了操作机器人的能力？如果脱离后训练，预训练模型是否能够被直接应用于机器人本体进行部署？对此，此前的研究并未给出明确的答案。

近期以来，自变量机器人对其具身基础模型WALL-OSS-0.5进行了开源，该预训练模型能够直接部署于自变量自主研发的机器人本体之上，从而执行诸如搬运、分拣、绳料整理在内的多种操作任务，甚至部分任务的效果，能够达到诸多需要经过微调的模型方可企及的水平。

若将这些结果综合来看，便会发现WALL-OSS-0.5正改变着那种「脱离后训练，模型便无法直接使用」的思维惯性。

在业界普遍强调后训练重要性的背景之下，WALL-OSS-0.5的预训练效果为何能够比肩后训练所取得的表现？此外，与传统的VLA模型相比，WALL-OSS-0.5在设计层面究竟存在哪些不同之处？

为什么过去的 VLA 都需要后训练？

近一两年中，整个行业中涌现出了众多VLA模型，但其中绝大多数的训练范式，本质上仍是视觉语言模型与一个外挂的动作专家模块相结合，这些模型所遵循的设计流程通常如下所示。

近年来，VLA 模型的能力正变得日益强大，但却面临一个无法忽视的现实困境：所有令人瞩目的成果几乎都离不开后训练这一环节。一个悬而未决的核心问题始终存在——预训练过程本身，是否已足以使模型掌握操作机器人的能力？如果完全脱离后训练，预训练模型是否能够被直接应用于机器人本体并进行部署？对此，此前的研究并未给出明确的答案。

随后，在模型的顶部再附加一个动作专家模块（Action head），专门用于动作的预测；

近年来，VLA 模型的能力正变得日益强大，但却面临一个不可忽视的现实困境：所有令人瞩目的成果，其关键环节几乎都依赖于后训练阶段。一个悬而未决的核心问题始终存在——预训练过程本身，是否已足以使模型掌握操作机器人的能力？如果完全脱离后训练，预训练模型是否能够被直接应用于机器人本体并进行部署？对此，此前的研究并未给出明确的答案。

近期，“自变量机器人”开源了其具身基础模型 WALL-OSS-0.5，该预训练模型能够直接部署于该公司自主研发的机器人本体之上，从而执行诸如搬运、分拣、绳料整理在内的多种操作任务。部分任务的效果，已达到甚至超越许多经过微调模型的水平。

综合来看这些结果，便会发现 WALL-OSS-0.5 正在改变那种“脱离后训练，模型便无法直接使用”的思维惯性。

在业界普遍强调后训练重要性的背景之下，WALL-OSS-0.5 的预训练效果为何能够比肩后训练所取得的表现？此外，与传统的 VLA 模型相比，WALL-OSS-0.5 在设计层面究竟存在哪些不同之处？

近一两年中，行业内部涌现出了众多 VLA 模型，但其中绝大多数的训练范式，其本质仍是视觉语言模型与一个外挂的动作专家模块相结合。这些模型所遵循的设计流程通常如下所示：

近年来，VLA 模型的能力正变得日益强大，但却面临一个不可忽视的现实困境：所有令人瞩目的成果，其关键环节几乎都离不开后训练这一环节。一个悬而未决的核心问题始终存在——预训练过程本身，是否已足以使模型掌握操作机器人的能力？如果完全脱离后训练，预训练模型是否能够被直接应用于机器人本体并进行部署？对此，此前的研究并未给出明确的答案。

随后，在模型的顶部再附加一个动作专家模块（Action head），专门用于动作的预测；

这三个步骤在表面上看来逻辑链条清晰且流畅，然而，其中实则潜藏着一个关键问题：作为核心的主干模型，其自身并不具备直接执行动作的能力。该模型主要习得的是世界通用知识、对视觉信息的理解能力以及语言交互能力；至于操作物体所需的具体动作能力，则被专门放置在一个外挂的动作专家模块当中。

因此，随着行业实践的不断推进，人们逐渐认识到，尽管机器人主干模型的规模正变得日益庞大，但真正负责执行具体动作的，实际上仍然是后端的、相对较小的动作专家模块（Action expert）。

这好比一位博士专注于理解世界，而一位实习生则负责动手操作。博士虽然知识渊博，但并不直接处理具体事务，真正执行任务的，是其背后的小型模块。

因此，模型规模的扩大并不必然带来动作执行能力的提升，其根本原因在于，负责视觉信息理解的主干网络与负责物理动作生成的外挂模块之间，在架构层面存在着固有的解耦。

这也就解释了，为何绝大多数的VLA模型都需要通过针对性的后训练，才能适应具体的操作任务。

由于在预训练阶段，主干模型实际上并未真正掌握执行操作的能力，它本质上只是一个性能较强的视觉语言理解器。

而 WALL-OSS-0.5 的核心设计之一，实质上在于使主干模型自身习得动作执行能力。

WALL-OSS-0.5 让不同信号各归其位

WALL-OSS-0.5 模型所聚焦的核心目标，在于使 VLM 主干能够真正掌握具备泛化能力的操作技能。正因如此，它需要依次应对三个层层递进的建模问题。

如何让动作真正进入主干模型

何以实现预训练模型的零样本能力？一个关键的前提在于，动作能力不能仅仅作为外挂模块存在，而必须成为基础模型架构的核心组成部分，从而使模型真正掌握执行操作的内在能力。

为此，WALL-OSS-0.5 采取了一项关键性设计，即对动作进行Token化处理，随后将其纳入语言模型的训练流程。

研究团队提出了一个名为 Gradient-Bridge 的设计，这是因为过去的VLA模型通常是从图像输入到主干网络，再到动作头进行处理，并且动作监督信号仅仅停留在动作头（Action head）层面。

通过采用 Gradient-Bridge 这一设计，当前的处理方式转变为将图像、文本以及动作 Token 整合为同一自回归序列。在此框架下，动作信息如同语言模型中的文本一样被逐个预测。该模型运用交叉熵损失函数来学习动作 Token 的分布，并使梯度信号得以直接反向传播并更新主干模型的参数。

这一改变使得主干模型得以主动学习动作生成，从而在预训练阶段便将视觉感知、语言理解与动作执行整合到同一套表征体系之中。机器人的动作能力不再以外部模块的形式存在，而是成为了基础模型的内在组成部分。

当主干模型真正掌握了动作执行的能力，预训练模型才可能具备零样本迁移的能力，否则，对于各种新的任务，就只能依赖后训练来弥补。

论文中开展的消融实验结果相当明确：若将 Gradient-Bridge 设计移除，那么模型在真机测试中的成功率便会表现出显著的下滑。并且，模型参数规模越大，这种性能衰退的现象就越为突出。这进而说明，随着模型规模的增长，将动作监督信号直接引入主干网络进行训练的重要性也相应提升。

动作 Token 不能只是数字压缩

在整个设计过程中，仅仅将动作进行Token化处理，实际上并不足以解决所有的问题。在此过程中，实际上存在一个隐性问题，即主干模型所学习的究竟是「动作语义」，还是仅仅是「动作编号」？

如果Token仅是对数值进行机械压缩后所得到的编号，那么模型在预测动作Token时，其本质上便只是在猜测下一个数字，而并非真正理解该动作会导致画面发生怎样的变化。如此一来，Gradient-Bridge所传入的便只是一堆缺乏实际意义的编码，主干网络所习得的仍然只是统计规律，而非物理世界中具备可操作性的结构。

对此，WALL-OSS-0.5 选择重新训练一个与视觉信息对齐的动作tokenizer，其核心逻辑在于：一个动作Token并非仅仅代表动作本身，它还应当能够表征这个动作会促使世界状态发生怎样的变化。

基于此，团队强制使Token表征与视觉特征之间实现对齐，同时要求其对下一帧的视觉变化作出预测。借助这一设计，每个动作Token得以同时承载两层含义，其一为动作压缩信息，其二则为世界变化信息。

基于这一设计，机器人将得以预测世界后续的变化情况，而非仅仅输出简单的数字。

如何使连续动作真正掌握「关键轨迹」？

然而，尽管动作 Token 化在语义层面具有显著优势，但机器人系统最终需要执行的，是连续的物理动作轨迹，而并非离散的 Token 序列本身。这便构成了一项关键挑战：模型在 Token 化的抽象表征层面进行了学习与推理，但其决策输出必须满足下游控制器对连续、平滑且可执行轨迹的实际需求。因此，必须建立一种有效的机制，将模型生成的离散动作 Token，精确地解码还原为符合机器人动力学约束的连续动作序列，以确保模型的高层决策能够最终落地，转化为真实的物理操作。

在这一方面，WALL-OSS-0.5采用的是Flow Matching（流匹配）技术，不过，其设计与传统Flow Matching方式存在差异，这是因为传统方法往往在优化过程中存在一定的“平均化”倾向。

在机器人的轨迹之中，某些部分显得至关重要，而另一些则相对次要。以机械臂抓取杯子的任务为例，其关键之处在于对准杯口、规划靠近的路径以及调整正确的抓取姿态，至于那些高频细微的抖动，往往不会对最终结果产生实质性的影响。

但传统的 Flow Matching 方法会投入大量计算资源，用以拟合这些高频噪声，从而导致模型的大量算力被浪费在相对次要的方面。

因此，WALL-OSS-0.5 在这一方面做出了相应的调整：不再对速度进行预测，而是转为直接预测动作。

基于此，模型的训练过程会从根本上更侧重于学习关键的轨迹结构，而非拟合那些无意义的高频抖动。

也就是说，它使模型将学习预算投入到如何完成任务本身，而并非去复刻每一个细枝末节。

最后一道关卡：把训练真正跑起来

经过上述一系列设计，如何让训练过程得以稳定且有效地展开，便成为一个更具挑战性的议题。然而，三项关键改进的集成，也同时引入了一个伴随而生的工程难题，即模型内部不同组件的参数尺度与所接收的梯度强度，呈现出高度异质化的特征。其成因在于：

VLM 主干来自预训练

Action head 从头训练

多路损失一起优化

梯度尺度将会出现严重的失衡现象，为此团队又开展了一项系统层面的优化工作，即DMuon。

其本质在于，将高效优化器Muon所带来的巨大计算开销，压缩至几乎可以忽略不计的程度。训练成本从原本接近2倍的水平，降低至仅需0.02倍，并且能够以即插即用的方式，嵌入到现有的训练流水线当中。

与传统 VLA 模型相比，WALL-OSS-0.5 进行了相当多的改动，这些改动所赋予的能力在具体的任务执行当中也得到了充分体现。

具体效果到底如何？

在团队所开展的实验中，WALL-OSS-0.5 展现出了最为关键的零样本泛化能力。

在涵盖了语义操作、柔性操作以及长程任务等多项真实机器人测试当中，全程未经过任何微调，预训练完成后的模型直接部署至真实机器人之上。

最终结果表明，模型在包括积木分类、水果分拣以及圆环套柱在内的多项任务中，其任务进度均达到了85%以上；甚至对于在训练数据中从未出现过的、诸如绳索拉紧这类可变形物体操作任务，也取得了82%的任务完成进度，这在当前已开源的视觉语言动作（VLA）模型中是较为罕见的。

而在十余项真实机器人任务所开展的公平对比实验当中，所有模型均基于相同的数据集以及相同的微调预算进行训练。

实验结果表明，Wall-OSS-0.5 在操作类任务方面展现出显著优势，领先于 π₀.₅ 等同类开源模型，且领先幅度超过了 25 个百分点；在需要推理判断的任务上，其表现也同样保持了稳定的优势。

而且需要注意的是，模型的多模态理解能力并未因侧重动作训练而出现衰退。尤其在与机器人执行高度相关的具身定位任务方面（即在机器人视角下准确指出操作目标的位置），Wall-OSS-0.5 相较于原版 VLM 骨干，其表现提升幅度超过了 20 个百分点。

团队指出，这恰恰印证了其所提出的「梯度桥接」协同训练方案的有效性，并表明动作学习与视觉语言理解并非零和博弈，而是能够相互促进的。

预训练即策略，为行业打开新思路

在过去很长一段时间里，受到大语言模型（LLM）的影响，具身领域的VLA模型也沿袭了一条与之相似的路径，预训练阶段仅仅是为模型奠定一个「好底子」，而真正执行具体任务的能力，则需要借助下游任务的微调才能够得以激发出来。

因此，业界形成了一种默认共识：即便预训练权重再优秀，若不进行针对真实机器人的微调，便不能被视为可用的策略。

但 Wall‑OSS‑0.5 的发布，正试图打破这一惯性思维。

从这些任务表现中可以看出，基于自变量自研的机器人本体，预训练模型已开始展现出直接部署的可能性。对于具身行业而言，这构成了范式层面的重要转变。

过去，行业默认的路径是先进行预训练，再针对具体任务进行适配，最终才进入真实场景。

而 WALL-OSS-0.5 所尝试探索的，则是另一条不同的方向，即让模型真正具备预训练完成后即可直接部署的能力。当然，这种能力的实现，并非简单地依赖于「更大模型」的参数规模而达成的。

为此，自变量团队对模型架构进行了相当彻底的设计调整，无论是 Gradient-Bridge 协同训练、视觉对齐的动作分词器，还是动作空间 Flow Matching，亦或是推动训练真正得以落地的 DMuon 优化器，这些创新都为行业提供了一个全新的视角，用以审视 VLA 模型如何能够更好地融入真实世界的应用场景。

不过值得指出的是，Wall-OSS-0.5在零样本任务中所展现出的能力，是在该公司自主研发的机器人硬件平台上得以验证的。若要将其跨本体进行使用，并维持原有的性能水平，依然需要进行一定程度的微调适应。实验数据表明，当硬件平台之间的结构差异较大时，模型性能的波动范围也可能随之增大。鉴于此，如何让模型具备跨硬件的通用操作能力，将成为未来研究的重要方向。

此外，团队针对每一项设计，均配套开展了相应的消融实验以及工程验证，用以阐明各个模块究竟解决了哪些具体问题，以及移除后会引发怎样的性能变化。

而且在工程实现层面，团队同步开放了DMuon优化器等一系列系统级基础设施。因此，本次WALL-OSS-0.5的开源，实质上更是一套具备可复现性的完整训练方法论的公开。

对于希望训练大规模VLA模型的研究人员而言，这种能够直接复用到训练流水线当中的基础能力，可以进一步降低社区在复现以及扩展层面的门槛。

这同时也意味着，业界将不必再重复进行基础架构与方法的构建，从而得以从相同的起点出发，加速后续的模型迭代与优化进程。

对于整个具身智能行业而言，各家公司所面临的核心问题往往具有高度一致性；而将机器人引入日常生活的应用场景，亦是行业的共同愿景。因此，构建开源生态、推动协同发展，便构成了近年来行业向前迈进的主要脉络。

来源：VLA 终于摆脱后训练了？自变量开源 WALL-OSS-0.5，预训练完直接上真机 | 具身研习社

声明：本文来自具身研习社，版权归作者所有。文章内容仅代表作者独立观点，不代表爱力方立场，转载目的在于传递更多信息。如有侵权，请联系 copyright#agent.ren。

TAGS: []

通知

尊敬的用户

user

资讯

自变量开源WALL-OSS-0.5，支持VLA预训练后直接上真机

自变量开源WALL-OSS-0.5，支持VLA预训练后直接上真机

相关图文

这次AI热潮如何走向终局？褪去滤镜，别让故事战胜估值

Meta开始卖算力，机构的AI信仰变了吗？

“BAT”历史性同台！30亿美元“弹药”落定，可灵立下的5年IPO军令状，藏着资本对AI视频赛道的耐心上限

AI时代Token成为“统一度量衡” 业内呼吁合力解决计费不透明等问题

八部门推动工业互联网和算力基础设施同步建设宇树科技IPO注册获批

直击慕尼黑上海电子展：云端AI加速下沉至端侧

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

小米发布具身智能基底模型 Xiaomi-Robotics-1，探索物理 AI 的 Scaling 效应

金融大模型市场规模一年增长九成，百度智能云再次位居第一

MiniMax发布Code 2.0桌面端：底层架构全面重构，原生接入金融多源数据

三星携手百度智能云推出“盖乐世AI”，完成重磅备案

Kimi K3模型预热视频流出，多段对比直指Claude，向Fable5发起挑战

百度文库网盘启动重大升级，GenFlow将面向金融等行业推出AI工作台

地瓜旭日S600成为中国人形机器人时代的重要基石

上海以AI赋能制造业全域升级，实效为王

热钱狂涌下，谁在争夺机器人“灵魂”：身体已就位、大脑却断粮

三分钟的骗局：AI语音诈骗如何轻松绕过防线

推荐专栏

爱力方

机器人大讲堂

下一篇

user

资讯

自变量开源WALL-OSS-0.5，支持VLA预训练后直接上真机

自变量开源WALL-OSS-0.5，支持VLA预训练后直接上真机

相关图文

这次AI热潮如何走向终局？褪去滤镜，别让故事战胜估值

Meta开始卖算力，机构的AI信仰变了吗？

“BAT”历史性同台！30亿美元“弹药”落定，可灵立下的5年IPO军令状，藏着资本对AI视频赛道的耐心上限

AI时代Token成为“统一度量衡” 业内呼吁合力解决计费不透明等问题

八部门推动工业互联网和算力基础设施同步建设 宇树科技IPO注册获批

直击慕尼黑上海电子展：云端AI加速下沉至端侧

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

小米发布具身智能基底模型 Xiaomi-Robotics-1，探索物理 AI 的 Scaling 效应

金融大模型市场规模一年增长九成，百度智能云再次位居第一

MiniMax发布Code 2.0桌面端：底层架构全面重构，原生接入金融多源数据

三星携手百度智能云推出“盖乐世AI”，完成重磅备案

Kimi K3模型预热视频流出，多段对比直指Claude，向Fable5发起挑战

百度文库网盘启动重大升级，GenFlow将面向金融等行业推出AI工作台

地瓜旭日S600成为中国人形机器人时代的重要基石

上海以AI赋能制造业全域升级，实效为王

热钱狂涌下，谁在争夺机器人“灵魂”：身体已就位、大脑却断粮

三分钟的骗局：AI语音诈骗如何轻松绕过防线

推荐专栏

爱力方

机器人大讲堂

下一篇

八部门推动工业互联网和算力基础设施同步建设宇树科技IPO注册获批