WAM世界动作模型详解

现在我们想让机械臂自主把桌上的杯子夹起来。它看见了杯子，也规划了一条靠近路线，但夹爪一碰到杯子，杯子就被轻轻碰歪了，下一步到底该继续夹，还是先退回来重新调整，这种物理接触发生之后的规划问题往往很难决策。

这些问题只看当前这一帧机器人相机获得的画面，很难回答。机器人需要在动作发生前，先对世界做一次短暂的预演：如果我这样动，下一刻会变成什么样。WAM 的核心就落在这里。

WAM，全称 World Action Model，可以翻译成世界动作模型。它要处理的核心，是让机器人把世界会怎么变和自己该怎么动放在同一条链路里学。用最简单的话说，VLA 更像是看见当前画面、听到任务指令，然后直接输出下一步动作；WAM 则会多想一步：它会结合刚才发生过什么，先预测下一刻世界可能怎么变，再生成能让世界朝这个方向变化的动作。

WAM 不一定是先生成一段完整高清视频，再把视频逐帧翻译成电机命令，真实控制里这样太慢，也太容易误差累积。更实际的方式是小段预测、小段执行、真实反馈、小段修正。很多机器人策略会用 action chunking，也就是一次不只输出一个瞬时动作，而是输出接下来一小段动作序列，让机械臂能连续、平滑地执行。

更进一步，这个 action chunk 还会和世界预测结合起来。模型先预测接下来一小段世界变化，再生成对应的一小段动作；机器人执行这段动作以后，相机会拿到新的真实观测。如果真实观测和原来的预测不一样，下一轮预测就要基于真实观测重新修正，而不是继续沿着旧想象往下跑。

动作和世界理解如何融合在一起？

WAM 大致有两类融合路线。一类是级联式：先预测未来状态，再从未来状态里解码动作。好处是结构清楚，中间结果比较容易检查；代价是前面想错了，后面很容易跟着错。

另一类是联合式：未来状态预测和动作生成在同一个框架里一起学。它想解决的问题很直接：世界预测和动作生成不能各干各的。一个模块在想象世界怎么变，另一个模块在生成动作，这两边需要互相看见，动作才更可能和预测后果对齐。

联合式里一个典型思路是 MoT，Mixture-of-Transformers。它可以理解成给不同模态各自留出专业通道：视频 token 走视频流的 transformer，动作 token 走动作流的 transformer。视频流更擅长处理高维视觉变化，动作流更贴近低维控制命令，两边再通过注意力 attention 机制交换信息。

这样做的好处，是不把视觉和动作强行塞进同一个空间。模型既保留了各自的处理方式，又能让动作生成看见世界预测的结果，让世界预测也知道机器人过去和接下来大概要怎么动。 MoT 就像是两个专业小组定期开会：一个负责想象世界，一个负责生成动作，中间通过共享信息把两件事对齐。

VLA 不够用了吗？

VLA 仍然很重要。它解决的是机器人能不能把视觉、语言和动作接起来。你说抓红色杯子，模型能找到红色杯子，理解抓取意图，并输出一段动作。对很多短时程、接触不复杂、容错比较大的任务，这条路线已经很有价值。

但要理解 VLA 的边界，先要抓住它的本质。

VLA 本质上是一种 mapping。

它学的是从观察和语言指令到动作的映射关系：画面里有什么，任务说了什么，历史上类似状态下人类或机器人示范过什么动作，于是模型输出下一段动作。这个 mapping 可以很强，可以覆盖很多物体、场景和语言表达，但它的基本形式仍然是从输入模式映射到动作模式。它可以通过历史帧、action chunking、扩散策略等方法变得更稳定，也可以把这个 mapping 做得很大、很泛化。

WAM 想补的是另一块：动作后果。

这个差别在静态语义任务里问题不大，到了长时程、强接触、高精度、可变形物体，问题就会冒出来。模型知道哪个是杯子，不代表它知道这个角度夹会不会滑。软物体、插孔、双臂协作这类任务也会遇到类似问题。这些失败点都发生在动作之后，也就是说，它们不只要求模型知道当前输入应该映射到什么动作，还要求模型提前判断这个动作会把世界推向哪里。

我的判断是，WAM 真正开始有价值的场景，是任务步骤长、接触多、物体会变形、失败后需要恢复，或者数据可以持续回收迭代。项目越接近真实物理交互，这种预测后果的能力就越值得认真评估。

现在看 WAM，先别急着下终局判断

WAM 这个方向很热，但我不太建议现在就把它看成一个已经定型的新范式。它还在起步阶段，很多方法其实是在 VLA、Diffusion Policy、视频生成模型和世界模型之间重新组合。比如 action chunking、视觉语言条件、闭环执行，这些思路很多都能在 VLA 或动作策略的发展里找到影子。

它真正新的地方，是把动作后果这件事摆到了更显眼的位置。机器人不能只把当前观察映射成动作，还要对动作之后的世界变化有一个可修正的预测。这个判断方向很重要，但具体怎么实现，还没有完全收敛。

原因也很简单，世界模型这个定义太大了。它可以是视频预测，可以是潜空间动态模型，可以接入 3D、触觉、力反馈和本体状态，也可以和 VLA 继续融合。只要一个模型在预测世界如何变化，并把这个预测接到动作生成里，它就有可能被放进 WAM 这条技术路线下。

所以 WAM 会发展成一个独立架构、一组训练目标，还是逐渐融进下一代 VLA 里，我们都还需要持续观察。具身智能领域现在新颖的概念层出不穷，我们需要的不是盲目追求热点，而是站在更长的时间周期上判断哪些工作能真正推动行业发展。