自变量机器人发布Wall-WM：以“事件级思维”重塑世界模型底层范式

2026年06月01日 10:56

本文共计6009个字，预计阅读时长21分钟。

来源/机器人大讲堂责编/huazi56 爱力方

当你将棒球抛向他人时，接住球的动作会显得流畅而自然：眼睛会持续追踪棒球的飞行轨迹，以便实时掌握球的位置信息；身体则会自动调整姿态，从而确保自身处于合适的接球位置；最终，手掌会在预判的落点处稳稳合拢，从而完成抓接动作。在整个过程中，没有人会在大脑里设定一个固定的“每0.1秒预测一次”这样的时钟。人的预测是以事件为锚点来展开的，诸如球的上升阶段、下落阶段以及接近手的瞬间，每一次预测的密度与精度，都会根据当前物理事件的重要程度进行动态调配。

然而时至今日，绝大多数世界模型以及视觉-语言-行动模型，依旧在扮演着"机械秒表"的角色：它们以固定的时间长度作为切片，对未来的3秒或5秒视频帧与动作序列进行预测，恰似一台被预先设定好帧率的摄影机，不分轻重地记录着每一个瞬间。

近日，自变量机器人正式发布了其首个"事件级"世界模型Wall-WM，并同步公开了一篇重量级的技术论文。这或许是近年来针对"世界模型底层范式"所发起的最为系统性的质疑之一。

文本、视觉与动作的时空错位

这篇论文揭示了一个长期被业界所回避的根本性问题：即文本、视觉与动作这三种不同的模态，实际上并不共存于同一个流形之上。

文本本质上承载的是低熵、离散的语义意图，其表示空间呈现出低维且高度聚集的特征。诸如“抓取红色方块”这样的指令，在嵌入空间中便是一个紧凑的语义点。视觉信息则是一个高维、连续演化的观测流，会持续受到视角、光照以及形变等因素的拉扯影响。而动作，则是受到物理规律以及接触条件严苛约束的控制信号，其局部几何结构对接触状态以及毫秒级的时序精度，均表现出高度的敏感性。

三者对于"相似性"所做出的定义，甚至都存在着不相容之处：在语义层面上相近的指令，往往可以对应出截然不同的视觉轨迹；而在视觉层面上相邻的两帧状态，则可能恰好处于接触发生的临界点之上，进而需要采取完全相反的控制策略。

当前主流VLA所普遍采用的做法，是将这些不同模态直接投射到一个共享的嵌入空间之中并进行联合优化。这实质上是在强制依赖一个单一的非线性映射，以吸收全部的模态错配。而该映射的最终优化方向，往往会倾向于数据集中占据主导地位的那个模态。

这恰恰解释了为何众多VLA模型在实际真机部署环节中，其表现往往远不及作为底座的视觉语言模型VLM那般理想。在预训练阶段所积累的丰富先验知识，往往会在适配过程中被悄然稀释掉。

02.

“事件”：被重新发现的原子单位

Wall-WM所提出的解决方案，在概念层面显得十分清晰简明：即通过将“事件”确立为视频与动作联合学习过程中的最小语义单元。

什么是事件？伸手、抓取、提起、移动以及放置，这些行为均属于不可再分的、具有因果边界的物理行为。一个事件拥有一段连续的、可被语言精确描述的时间窗口；它所对应的是一个能够被视频完整覆盖的视觉过程；它驱动着一组首尾自洽的动作轨迹。在"事件"这个层级上，三种模态首次共享了同一个边界以及同一个语义锚点。

这看似是一项基本认知，然而在现有的VLA技术框架之下，这一点却往往会遭到系统性的忽视。当前的主流做法是依据固定的时间长度对过程进行分段，但这种切割方式极有可能在某个片段的中间位置，同时横跨“接近物体”与“接触物体”这两个性质截然不同的物理阶段，从而迫使模型不得不在存在歧义的状态下进行学习。

以事件为锚点来重建模型训练的信号，所带来的根本性转变在于：模型不再学习“指令→动作”之间简单的反应式静态映射关系，而是在于理解在特定事件条件下物理世界的演化规律以及自身的执行策略。这正是我们将此类模型称为“世界模型”的根本所在。

为了将这一洞察付诸实践，Wall-WM在架构层面做出了三项关键性的设计决策。

03.

先验保护的工程艺术

首个设计要点，处理的是一个在原理上简单、但在实践中却极具挑战性的课题：即如何在大规模的模型训练进程里，对从海量互联网视频数据中所继承而来的宝贵先验知识施以有效的保护。

Wall-WM所采用的方案，是一种层级化的、单向解耦的扩散架构。在这一架构当中，视觉模块会从预训练的Wan2.1视频模型中继承相应的权重，从而承载了互联网规模下所积累的视觉动态先验；而动作模块则采用完全零初始化的方式，以避免在训练的早期阶段对视频塔产生污染。两者的耦合通过每一层的交叉注意力机制来实现——动作流能够读取来自视觉端的证据信息，然而梯度不会回流至视频塔的核心权重。

这一机制的本质，在于将跨模态对齐所承担的任务重心，从“对先验知识进行改造”，转嫁至“对耦合关系展开学习”。视觉塔得以持续履行其经由预训练所获得的核心职能——即作为一个精确的视频生成器而存在；动作塔则在此过程中逐步习得从这些视频表征里提炼出有效控制信号的能力。二者所共享的中间子空间，由此演化出一种近似“隐式动作表征”的结构——它无需预先设定码本的容量，亦不必假定存在一个离散的动作词汇表，便能在规模化训练中同步达成“保持先验稳定性”与“增强控制能力”这两重目标。

这在VLA领域可以说是一项不平凡的突破。因为这其中恰恰蕴含着大规模模型训练过程中的一个核心两难困境：一方面，我们并不希望模型因此遗忘了在预训练阶段所习得的宝贵知识；另一方面，又迫切需要它掌握面向特定任务的全新控制能力。大多数方案往往只能在这两个相互冲突的目标之间，去寻求一个并不稳定的平衡点。Wall-WM所提出的单向耦合机制，则为此提供了一个在理论上更为优雅且清晰的分离式解决方案。

04.

让跨视角注意力学会几何

第二项设计亦贯彻了这一核心思路，即WALL-WM所采用的几何感知式多视角融合机制。

在实际的机器人部署场景里，通常都需要配置多台相机，其中往往涵盖一个用于全局监视的顶视广角镜头，以及两个用于精细操作的腕部视角镜头。然而，朴素的跨视角注意力机制存在一种内在的退化倾向，它会在所有可能的空间位置上盲目寻找关联性，因此极易退化成为一种通用的特征混合器，其所学习的是一般意义上的视觉关联性，而非真正意义上的几何对应关系。

为了解决这一问题，Wall-WM提出了一对互补的掩码机制：视锥掩码与管状掩码。

视锥掩码借助相机标定参数来推算出每个空间点所具有的可见范围，并且只有当两个视角之间存在三维空间交集时，才允许注意力得以通过。这实质上是从拓扑层面对模型进行告知，即哪些关联在物理上是可能成立的。然而，仅仅指明通路是不够的。因为模型完全有可能更偏好单视角内的时间线索，进而导致跨视角通路闲置。

在此基础上，第二种机制被引入：即管状掩码。该掩码会随机抹去某一视角中某个特定时空“管道”内的全部像素，从而迫使模型必须转向其他视角，才能寻找到用于重建的信息。如果连条件侧的信息也一并被抹除，那么通往单视角重建的这条捷径就会被彻底封死，此时跨视角注意力便成为了模型能够依赖的唯一解。

两种掩码互补形成了一种精巧的力学结构：视锥掩码设定了注意力“可以流向何处”的拓扑约束，而管状掩码则强制其“必须流向该处”。由此，跨视角注意力在训练过程中，从一种“潜在的、可选的能力”，转变为“被高频激活的几何对应原语”。该机制与一种无需预标定、可直接学习的Camera RoPE位置编码相配合，使得多视角融合在多本体、大规模的训练场景中具备了天然的可扩展性。

05.

保留可解释性的推理加速

在视觉-语言-行动任务的执行过程中，思维链推理能够显著提升决策的质量。然而，逐token自回归解码所存在的低效问题，使其难以满足机器人对于实时性的要求。当前主流的妥协方案，是将思维链压缩为连续的潜在向量，以此换取推理速度的提升；而这一做法所牺牲的，恰恰是推理过程本身的可解释性。一旦机器人做出了错误的决策，用户便再也无法观察到它当时究竟在"想"些什么。

Wall-WM所提出的阶梯式思维链解码（Staircase CoT Decoding）机制，在推理质量与实时性要求之间的权衡上，得以开辟出一条有效的中间路径。

这一设计的核心思路在于，将VLM的全部层划分为低层以及高层两个阶段。思维链序列中的第一个token会完整穿越底层网络，从而生成一个"接力状态"；后续的所有token则会跳过冗余的底层计算过程，直接从该状态出发，在高层部分并行展开。这种处理方式将解码成本从与token数量呈线性关系的O(K·L)，削减至O(N+K(L-N))。在实现加速的同时，所输出的内容仍然是真实的、可读的思维链文本，而冻结的语言模型能够完整还原推理路径，使得可解释性与实时性无需再进行二选一的权衡。

06.

一个底座，两种存在形态

值得注意的是，Wall-WM在同一套权重的基础上，能够支持两种不同的部署模式。

在事件模式下，该模型接收以自然语言所描述的"下一个事件"信息，并输出长度可变的、与事件相对齐的动作块。这一模式适用于上游已配备规划器、且任务能够被拆解为清晰子事件的场景，每一次预测恰好对应一个完整的动作单元。在统一模式下，VLM借助阶梯式思维链解码在线产生中间推理，并以固定长度的动作块作为条件进行输出。这一模式适用于没有外部规划器、且需要恒定控制频率的端到端实时部署场景。

两种模式能够在执行过程中以动作块作为粒度实现自由的切换，并且无需进行任何的重训练工作。这意味着同一个模型既可以选择作为底层执行器来配合高层规划使用，也能够脱离规划器而独立运行起完整的控制闭环。这种部署层面所蕴含的柔性在真实生产场景中具备的价值，或许并不亚于核心算法实现突破本身。

实验数据：大规模真机泛化最佳

Wall-WM的架构创新最终体现为一系列可量化的性能提升，其在具身视频生成、3D感知以及真机操作基准测试方面均取得了领先成绩。

你对Wall-WM在具身视频生成任务上所取得成果的概括，确实精准地触及了事件级预测范式的核心价值。这项成就不仅是一个基准测试的领先，更深刻地揭示了“事件”作为建模单元，为何能更贴合物理世界的本质规律。

从物理交互的层面来看，传统的固定时长切片，就像是把一部连续电影粗暴地剪成等长的片段。一个完整的“伸手抓取”动作，其关键的动力学变化和接触瞬间，很可能被随机地切割开来，导致模型在学习时接收到的是模糊或错误的因果信号。而事件级预测，则像是为模型配备了一位专业的剪辑师，它以完整的“抓取”事件为单位进行裁剪和学习。这样一来，模型所看到和学习的每一个视频片段，其开头、过程与结尾，在物理和语义上都是自洽且完整的。这种与物理过程天然对齐的训练信号，正是其能够生成更流畅运动轨迹、并忠实反映因果逻辑的根本原因。

在语义一致性方面，将“事件”与语言指令直接锚定，也带来了根本性的提升。当指令是“拿起杯子”时，事件级模型学习的是一个从接近、环绕到施力闭合的完整物理过程。这确保了生成的动作序列从始至终都服务于同一个语义目标，避免了因时间切片错位而导致的“动作与意图脱节”或“中途放弃”的现象。

Wall-WM的这项成果，从侧面印证了一个观点：一个好的世界模型，其关键或许不在于对未来看得多么遥远，而在于对当下的物理事件理解得多么深刻和完整。它为整个具身智能领域提供了一个值得借鉴的思路——通过更精巧、更贴近物理现实的表示学习单元，来弥合数字世界与物理世界之间的鸿沟。

3D感知能力借助CO3Dv2基准来开展评测，Wall-WM在点误差以及深度误差这两项指标上均优于WAN2.1-14B、Open-Sora 2.0、V-JEPA和DINOv2，从而验证了所提出的几何感知多视角融合以及掩码机制对于空间理解能力的有效提升作用。

在最为关键的真机Core15 L1基准上，Wall-WM涵盖了基础任务、推理任务、灵巧操作以及泛化场景等多个维度，其任务完成分数均显著超越π0.5与DreamZero。在抽象指令设定下，Wall-WM更是当前完成度最高的L1模型之一，这表明该模型在真实世界环境中具备了稳定的事件级理解与执行能力，而非仅在受控条件下才能够表现出色。

07.

结语

无论是RT-2、OpenVLA，还是π0与GR00T N1，过去两年间视觉语言动作模型的演进，始终是沿着“更大的数据、更广的语义覆盖、更快的推理”这一主线来展开的。尽管这条路线取得了显著的成果，但也逐渐暴露出结构性的瓶颈所在：作为基础的视觉语言模型，其在训练过程中对视觉与动作之间对应关系所进行的建模，始终属于一种反应式的、并基于固定时间窗口的模式。

Wall-WM在这条演进路线上，提出了一种范式层面的分叉。它并非旨在打造又一个在基准测试中跑分更高的视觉-语言-动作模型，而是转而追问一个更为根本的问题：一个真正面向物理世界来构建的世界模型，究竟应当以什么作为其进行认知与预测的基本单位？

它的答案在于“事件”。那些具备因果边界的、可被语言精确描述、可被视频完整记录，以及可被动作确切执行的物理片段。这既非对既有技术路线的简单否定，亦非脱离实际的概念跳跃。它更接近于，将人类与物理世界进行交互的这种自然粒度，通过工程化手段，转化为了可训练的模型架构以及相应的数据协议。

而在通往这个答案的过程之中，它留下了一系列对于整个具身智能社区具有参考价值的工具化思考：如何借助单向耦合机制来保护预训练先验；如何利用几何掩码将‘可选的’注意力机制锤炼成为‘必需的’感知原语；如何在加速推理进程的同时保留可解释性。这些问题的提出以及解答，或许比任何一个单一的榜单排名都更能标记着这个领域的进展。