作者:毛不毛 出品:具身智能前沿
机器人还在逐帧学动作
让机器人把桌上的杯子递过来。
就这一个动作。目前的具身大模型怎么学?逐帧填空。
说实话我觉得这个行业挺让人沮丧的。每年都有新模型发布,跑分一个比一个好看。但让机器人在真实环境里做点简单的家务——端杯水、递个东西——翻车视频在 B 站能刷一天。
预测 0.1 秒后手在哪,0.2 秒后手在哪,0.3 秒……把一个完整动作切成几十张几乎雷同的画面,让模型一帧一帧去记。结果模型学会的是"手指每帧挪几毫米",不是"把杯子抓住"。换个杯子,换张桌子,节奏稍微变一下,立刻翻车。
说实话,这做法挺扯的。就像学一首歌,不记旋律,只记每个音符持续几毫秒。换把吉他你就不会弹了。
我一直觉得这个做法不太对劲。
昨晚自变量机器人团队发了一篇论文,给了一个很"反常识"的答案:机器人不该按帧学,该按事件学。

他们发布了全球首个"事件级预测"的具身智能世界模型,叫 WALL-WM。WALL 是自变量那条产品线的名字,WM 就是 World Model。模型不再问"0.1 秒后画面是什么样",而是直接想象"抓住杯子那一刻是什么样"——跳过中间所有冗余帧,然后同步生成抵达那个状态的动作轨迹。
因为"事件"本身就是一个跨场景、跨物体的语义抽象,模型换了个杯子也能认出来:哦,还是"抓住"这件事。
但这件事比"换了个预测方式"要深得多。
三种模态根本不在同一个流形上

论文里戳破了一个行业里很多人知道但一直在绕开的事实:文本、视觉、动作,这三种信息天然没法完全对齐。
不是调参不够好,是它们在高维空间里长着不同的流形几何,跑在不同的时间尺度上。
文本是高层的、低熵的语义意图。"把杯子递过来",十个字。视觉是连续演化的高维观察,每帧几百万像素。动作被物理世界死死约束——接触前和接触后的控制逻辑完全不同,对微小扰动极其敏感。
把这三者压进同一个共享表示空间,预训练表示很容易偏离原有的先验几何。
这也解释了为什么很多 VLA(Vision-Language-Action)模型在真机上的表现,远不如它们的底座 VLM 该有的水平。问题可能不在模型不够大,而在于"对齐"这件事本身的假设就有裂缝。
所以自变量团队换了个思路——event-centric,以事件为中心。
把机器人任务切在真正有语义、有物理状态变化的"事件边界"上:伸手、接触、夹爪闭合、提起、移位、放置。每个事件都能被语言说清楚,被视频记录下来,也能落到机器人的动作轨迹里。文本、画面、动作,在事件的节点上真正接上了。
模型学的不是"抓住杯子",而是"手指每帧挪几毫米"。
换个杯子就废了。这个问题困扰了行业好几年,但真正愿意承认"我们对齐方式可能根本上就有问题"的团队不多。大家都忙着加数据、加参数量,没人停下来问:是不是从一开始就学错了?
这挺让人失望的。明明方向有问题,还在拼命踩油门。
WALL-WM 怎么做到的

核心链路不复杂:先预演世界会怎么变,再把这种变化翻译成机器人该做的动作。
但实现路径比表面看着精细。
入口是一句事件指令。"抓起杯子",告诉模型下一步要做什么。
中间是事件世界模型。围绕这个事件预演接下来的画面变化:物体怎么动,场景怎么变,机械臂怎么参与。
出口之前是多视角时空融合。头部相机看全局,腕部相机看手边细节,WALL-WM 把它们统一到真实的三维几何关系里——用视锥掩码切掉物理上不可能对齐的跨视角关联,再用管状掩码随机遮挡某个视角的时空区域,逼着模型从其他相机找线索。

执行阶段,同一套权重可以跑两种模式:
事件模式。上层规划器已经把任务拆好了,模型根据事件描述输出一段长度可变的动作。动作不必被硬切成固定窗口,顺着语义事件自然展开。
统一模式。没有外部规划器的时候,模型自己一边看一边想一边控制,VLM 结合当前视觉和任务指令在线生成推理,再交给动作模型输出固定长度的动作块。
这两种模式不需要重新训练,执行过程中还能按动作块切换。
更关键的一个设计:视频模型和动作模型是拆开的。
视频模型从预训练的 Wan2.1 继承权重,承载互联网视频里学来的动态先验——物体怎么动,场景怎么变。动作模型从零初始化,专门学习如何把这些视觉变化翻译成机器人轨迹。两者在每层做单向耦合:动作流读取视频流的视觉证据,视频流保留原有的动态先验不被动作数据过早带偏。
守住视频基座已有的世界理解,同时让动作能力在大规模训练里持续增长。
这恰恰是绝大多数 VLA 在大规模训练时做不到的。
但更大的问题是:VLA 还是世界模型?

写到这儿我得停一下,说一件很多人不想谈的事。
具身智能目前其实有两条路线。一条是 VLA:给模型一帧画面,加一句语言指令,让它预测接下来一段固定长度的动作块。Google DeepMind 的 π 系列,Physical Intelligence 的 π0,都在这条路上。工程上方便,benchmark 成绩也确实能打。
另一条是世界模型:让模型先理解"世界接下来会怎么变",再把这种理解翻译成动作。更接近人类"先想清楚再动手"的方式。
今年 4 月,华为团队发了一篇论文,结论很直接:VLA 碾压世界模型。跑分摆在那儿,而且 VLA 可以吸收世界模型模块来增强自己,反过来几乎不行。
这话说得没错。benchmark 上,VLA 确实领先。
但说实话我看完那篇华为论文,觉得有一个盲点——他们比的是同一套规则下的分数。如果规则本身就偏向 VLA 呢?
自变量团队的回答不是"我们在 benchmark 上赢 VLA",而是把预测单位从"帧"换成了"事件"。这两条路其实在不同的维度上解决不同的问题——VLA 回答"现在看到 X,我该做什么",世界模型回答"接下来世界会怎么变,我该如何提前准备"。
真正强的具身智能,可能两条路都要有。
WALL-WM 在真机 Core15 L1 基准上的表现已经说明了一些东西:基础任务、推理任务、灵巧操作、泛化场景,完成分数都显著超过 π0.5 和 DreamZero。在抽象指令设定下,它是当前完成度最高的 L1 模型之一。π0.5 就是 VLA 路线的代表。
跑分当然不是终局。但至少在同一个考场里,世界模型这次没有掉队。
——不过我也得承认,benchmark 这个东西吧,谁都能针对性优化。真到机器人进家庭端盘子递杯子的时候,实验室里跑多少分没人会在意。能稳定干活才算数。
而且说实话,Demo 做得好看的团队我见过太多。摄像头角度调一调、桌面环境控制一下、光照条件固定住——演示的时候谁都像那么回事。换个厨房试试?翻车。换个用户试试?翻车。真正的问题从来不是"能不能在实验室完成这个动作",而是"能不能在你家那个乱七八糟的厨房里、用你桌上那堆乱七八糟的东西,照样完成"。
数据金字塔和四级标注

除了模型结构,WALL-WM 背后那套数据工程也挺值得看。
他们搭了个数据金字塔。底层是百万级网络通用视频,补开放世界的视觉和运动先验。往上走是人类动作视频、第一视角视频、公开机器人数据、自采视频-动作数据。最顶端才是真机接管、纠错和恢复数据。
每一层都是对上一层某条约束的可控放松。越往上越贴近真机部署,越往下越接近开放世界的视觉先验。
训练的时候不是把一条机器人轨迹当成一整段视频粗暴喂进去。四级层级化标注加双聚类采样,把每条轨迹拆成任务、子任务、动作、片段四层。模型看到的是一锅粥,而是一个个边界清楚的行为单元。
论文里有一个我觉得很有意思的发现:文本描述按动作边界切分之后,语言分布和视觉-语言联合分布都变得更均衡了。原本容易被淹没在长任务里的稀有指令、特殊场景组合,更自然地暴露给了训练。
改善数据分布,顺便的。(好吧,"顺便"这个词用得不太准确——这显然是精心设计的,但效果确实比直接喂整段轨迹要自然得多。)
底层训练系统也补了。分布式 Muon 优化器(DMuon)提升收敛稳定性,多事件打包降低计算浪费。部署阶段蒸馏减少去噪步数,FP8 量化降低显存和推理成本——离实时控制近了一步。
具身智能的护城河可能不在算法,在数据闭环和工程体系,这件事被很多人低估了。
35 天,两次大动作
看一下自变量机器人的节奏:
2024 年底,WALL-A,第一代具身基础模型。2025 年 9 月,WALL-OSS,轻量开源版。2026 年 4 月 21 日,WALL-B,全球首个世界统一模型架构,拿了小米的投资,宣布一个月之内推新一代进家庭的机器人。
然后 5 月 29 日,WALL-WM。距离 WALL-B 发布只隔了 35 天。
这个节奏不是巧合。他们在搭的不仅是模型,而是从数据采集、层级标注、采样训练到实时部署的一整条工程链路。
我越来越觉得,最终能在具身智能这条路上跑出来的团队,不会是模型跑分最高的那个。而是能把整条链路打通、让机器人真的能在不同场景里稳定干活的那个。
论文开头,自变量团队引用了柏拉图《斐德罗篇》里的一句话:
依乎天理,因其固然。
物理世界的真实任务不会按固定时间窗口整齐发生。它更像一串自然衔接的事件——伸手、接触、抓取、移动、放下,每个关键变化都对应着动作里的自然关节。
WALL-WM 做的,就是让模型沿着这些事件关节去理解世界、预测变化、生成动作。
当语言变了,物体换了,场景不同了,任务组合变了,甚至机器人本体都换了——它依然可以顺着事件边界判断:现在进行到哪一步,下一步世界会怎么变,动作又该怎么落下去。
具身智能的竞争正在从跑分和 Demo 走向真实部署。行业比拼的不再是"谁看起来更会动",而是"谁更能理解变化、组织行动、稳定泛化"。

也许答案本来就不在模型参数里。它在我们每天都在经历的那些自然衔接的事件里。
机器人要学的,可能就是我们每天都在做的事情。
我赌世界模型这条路,不是因为跑分,是因为它更接近人类理解世界的方式。