全球首个事件级世界模型，终结具身智能逐帧时代

作者：毛不毛出品：具身智能前沿

机器人还在逐帧学动作

让机器人把桌上的杯子递过来。

就这一个动作。目前的具身大模型怎么学？逐帧填空。

说实话我觉得这个行业挺让人沮丧的。每年都有新模型发布，跑分一个比一个好看。但让机器人在真实环境里做点简单的家务——端杯水、递个东西——翻车视频在 B 站能刷一天。

预测 0.1 秒后手在哪，0.2 秒后手在哪，0.3 秒……把一个完整动作切成几十张几乎雷同的画面，让模型一帧一帧去记。结果模型学会的是"手指每帧挪几毫米"，不是"把杯子抓住"。换个杯子，换张桌子，节奏稍微变一下，立刻翻车。

说实话，这做法挺扯的。就像学一首歌，不记旋律，只记每个音符持续几毫秒。换把吉他你就不会弹了。

我一直觉得这个做法不太对劲。

昨晚自变量机器人团队发了一篇论文，给了一个很"反常识"的答案：机器人不该按帧学，该按事件学。

他们发布了全球首个"事件级预测"的具身智能世界模型，叫 WALL-WM。WALL 是自变量那条产品线的名字，WM 就是 World Model。模型不再问"0.1 秒后画面是什么样"，而是直接想象"抓住杯子那一刻是什么样"——跳过中间所有冗余帧，然后同步生成抵达那个状态的动作轨迹。

因为"事件"本身就是一个跨场景、跨物体的语义抽象，模型换了个杯子也能认出来：哦，还是"抓住"这件事。

但这件事比"换了个预测方式"要深得多。

三种模态根本不在同一个流形上

论文里戳破了一个行业里很多人知道但一直在绕开的事实：文本、视觉、动作，这三种信息天然没法完全对齐。

不是调参不够好，是它们在高维空间里长着不同的流形几何，跑在不同的时间尺度上。

文本是高层的、低熵的语义意图。"把杯子递过来"，十个字。视觉是连续演化的高维观察，每帧几百万像素。动作被物理世界死死约束——接触前和接触后的控制逻辑完全不同，对微小扰动极其敏感。

把这三者压进同一个共享表示空间，预训练表示很容易偏离原有的先验几何。

这也解释了为什么很多 VLA（Vision-Language-Action）模型在真机上的表现，远不如它们的底座 VLM 该有的水平。问题可能不在模型不够大，而在于"对齐"这件事本身的假设就有裂缝。

所以自变量团队换了个思路——event-centric，以事件为中心。

把机器人任务切在真正有语义、有物理状态变化的"事件边界"上：伸手、接触、夹爪闭合、提起、移位、放置。每个事件都能被语言说清楚，被视频记录下来，也能落到机器人的动作轨迹里。文本、画面、动作，在事件的节点上真正接上了。

模型学的不是"抓住杯子"，而是"手指每帧挪几毫米"。

换个杯子就废了。这个问题困扰了行业好几年，但真正愿意承认"我们对齐方式可能根本上就有问题"的团队不多。大家都忙着加数据、加参数量，没人停下来问：是不是从一开始就学错了？

这挺让人失望的。明明方向有问题，还在拼命踩油门。

WALL-WM 怎么做到的

核心链路不复杂：先预演世界会怎么变，再把这种变化翻译成机器人该做的动作。

但实现路径比表面看着精细。

入口是一句事件指令。"抓起杯子"，告诉模型下一步要做什么。

中间是事件世界模型。围绕这个事件预演接下来的画面变化：物体怎么动，场景怎么变，机械臂怎么参与。

出口之前是多视角时空融合。头部相机看全局，腕部相机看手边细节，WALL-WM 把它们统一到真实的三维几何关系里——用视锥掩码切掉物理上不可能对齐的跨视角关联，再用管状掩码随机遮挡某个视角的时空区域，逼着模型从其他相机找线索。

执行阶段，同一套权重可以跑两种模式：

事件模式。上层规划器已经把任务拆好了，模型根据事件描述输出一段长度可变的动作。动作不必被硬切成固定窗口，顺着语义事件自然展开。

统一模式。没有外部规划器的时候，模型自己一边看一边想一边控制，VLM 结合当前视觉和任务指令在线生成推理，再交给动作模型输出固定长度的动作块。

这两种模式不需要重新训练，执行过程中还能按动作块切换。

更关键的一个设计：视频模型和动作模型是拆开的。

视频模型从预训练的 Wan2.1 继承权重，承载互联网视频里学来的动态先验——物体怎么动，场景怎么变。动作模型从零初始化，专门学习如何把这些视觉变化翻译成机器人轨迹。两者在每层做单向耦合：动作流读取视频流的视觉证据，视频流保留原有的动态先验不被动作数据过早带偏。

守住视频基座已有的世界理解，同时让动作能力在大规模训练里持续增长。

这恰恰是绝大多数 VLA 在大规模训练时做不到的。

但更大的问题是：VLA 还是世界模型？

写到这儿我得停一下，说一件很多人不想谈的事。

具身智能目前其实有两条路线。一条是 VLA：给模型一帧画面，加一句语言指令，让它预测接下来一段固定长度的动作块。Google DeepMind 的 π 系列，Physical Intelligence 的 π0，都在这条路上。工程上方便，benchmark 成绩也确实能打。

另一条是世界模型：让模型先理解"世界接下来会怎么变"，再把这种理解翻译成动作。更接近人类"先想清楚再动手"的方式。

今年 4 月，华为团队发了一篇论文，结论很直接：VLA 碾压世界模型。跑分摆在那儿，而且 VLA 可以吸收世界模型模块来增强自己，反过来几乎不行。

这话说得没错。benchmark 上，VLA 确实领先。

但说实话我看完那篇华为论文，觉得有一个盲点——他们比的是同一套规则下的分数。如果规则本身就偏向 VLA 呢？

自变量团队的回答不是"我们在 benchmark 上赢 VLA"，而是把预测单位从"帧"换成了"事件"。这两条路其实在不同的维度上解决不同的问题——VLA 回答"现在看到 X，我该做什么"，世界模型回答"接下来世界会怎么变，我该如何提前准备"。

真正强的具身智能，可能两条路都要有。

WALL-WM 在真机 Core15 L1 基准上的表现已经说明了一些东西：基础任务、推理任务、灵巧操作、泛化场景，完成分数都显著超过 π0.5 和 DreamZero。在抽象指令设定下，它是当前完成度最高的 L1 模型之一。π0.5 就是 VLA 路线的代表。

跑分当然不是终局。但至少在同一个考场里，世界模型这次没有掉队。

——不过我也得承认，benchmark 这个东西吧，谁都能针对性优化。真到机器人进家庭端盘子递杯子的时候，实验室里跑多少分没人会在意。能稳定干活才算数。

而且说实话，Demo 做得好看的团队我见过太多。摄像头角度调一调、桌面环境控制一下、光照条件固定住——演示的时候谁都像那么回事。换个厨房试试？翻车。换个用户试试？翻车。真正的问题从来不是"能不能在实验室完成这个动作"，而是"能不能在你家那个乱七八糟的厨房里、用你桌上那堆乱七八糟的东西，照样完成"。

数据金字塔和四级标注

除了模型结构，WALL-WM 背后那套数据工程也挺值得看。

他们搭了个数据金字塔。底层是百万级网络通用视频，补开放世界的视觉和运动先验。往上走是人类动作视频、第一视角视频、公开机器人数据、自采视频-动作数据。最顶端才是真机接管、纠错和恢复数据。

每一层都是对上一层某条约束的可控放松。越往上越贴近真机部署，越往下越接近开放世界的视觉先验。

训练的时候不是把一条机器人轨迹当成一整段视频粗暴喂进去。四级层级化标注加双聚类采样，把每条轨迹拆成任务、子任务、动作、片段四层。模型看到的是一锅粥，而是一个个边界清楚的行为单元。

论文里有一个我觉得很有意思的发现：文本描述按动作边界切分之后，语言分布和视觉-语言联合分布都变得更均衡了。原本容易被淹没在长任务里的稀有指令、特殊场景组合，更自然地暴露给了训练。

改善数据分布，顺便的。（好吧，"顺便"这个词用得不太准确——这显然是精心设计的，但效果确实比直接喂整段轨迹要自然得多。）

底层训练系统也补了。分布式 Muon 优化器（DMuon）提升收敛稳定性，多事件打包降低计算浪费。部署阶段蒸馏减少去噪步数，FP8 量化降低显存和推理成本——离实时控制近了一步。

具身智能的护城河可能不在算法，在数据闭环和工程体系，这件事被很多人低估了。

35 天，两次大动作

看一下自变量机器人的节奏：

2024 年底，WALL-A，第一代具身基础模型。2025 年 9 月，WALL-OSS，轻量开源版。2026 年 4 月 21 日，WALL-B，全球首个世界统一模型架构，拿了小米的投资，宣布一个月之内推新一代进家庭的机器人。

然后 5 月 29 日，WALL-WM。距离 WALL-B 发布只隔了 35 天。

这个节奏不是巧合。他们在搭的不仅是模型，而是从数据采集、层级标注、采样训练到实时部署的一整条工程链路。

我越来越觉得，最终能在具身智能这条路上跑出来的团队，不会是模型跑分最高的那个。而是能把整条链路打通、让机器人真的能在不同场景里稳定干活的那个。

论文开头，自变量团队引用了柏拉图《斐德罗篇》里的一句话：

依乎天理，因其固然。

物理世界的真实任务不会按固定时间窗口整齐发生。它更像一串自然衔接的事件——伸手、接触、抓取、移动、放下，每个关键变化都对应着动作里的自然关节。

WALL-WM 做的，就是让模型沿着这些事件关节去理解世界、预测变化、生成动作。

当语言变了，物体换了，场景不同了，任务组合变了，甚至机器人本体都换了——它依然可以顺着事件边界判断：现在进行到哪一步，下一步世界会怎么变，动作又该怎么落下去。

具身智能的竞争正在从跑分和 Demo 走向真实部署。行业比拼的不再是"谁看起来更会动"，而是"谁更能理解变化、组织行动、稳定泛化"。

也许答案本来就不在模型参数里。它在我们每天都在经历的那些自然衔接的事件里。

机器人要学的，可能就是我们每天都在做的事情。

我赌世界模型这条路，不是因为跑分，是因为它更接近人类理解世界的方式。

来源：全球首个"事件级"世界模型，终结了具身智能逐帧时代 | 具身研习社

通知

尊敬的用户

user

资讯

全球首个事件级世界模型，终结具身智能逐帧时代

全球首个事件级世界模型，终结具身智能逐帧时代

相关图文

慧辰股份“孤独症具身智脑”亮相具身智能产业论坛切入千亿级康复服务市场

2026全球具身智能产业链协作出海对接会在沪成功举办

报告：长三角具身智能企业数量和融资规模均占全国五成以上

ATHENA将影响函数扩展到十亿参数VLA，实现313倍加速筛选高价值数据

训练世界模型开始从人类肌肉和大脑学习

极智嘉：人形机器人要“真干活”先跨过这三道坎

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

美股盘前：存储芯片股再度下跌，SK海力士、闪迪跌超5%；台积电Q2业绩超预期但股价跌3.85%；英伟达与日本企业扩大机器人合作

DeepSeek再启融资并筹划上市，国产大模型还将带来多少打新机会？

日本企业AI联盟拟采购近3万枚英伟达Rubin芯片，发力机器人生态建设

国产AI编程工具加速突围，ToCodex探索软件研发自主创新新路径

AIGC办公流水线重构：千问将简历写作、PPT制作与数据清洗拆解为可复制执行流程

科创50指数连续2个交易日下跌超4%，算力硬件板块持续低迷，850亿“中药茅”近日现久违涨停

世界机器人大会将至，机器人产业链景气度持续升温，多只个股频获机构调研

算力权益获客模式卷向中小银行，资产提升成新赛道

中国AI跑出加速度背后的四重底气

全栈开放的人形机器人开发底座发布，售价2.39万元起助力低成本开发

推荐专栏

爱力方

机器人大讲堂

下一篇

user

资讯

全球首个事件级世界模型，终结具身智能逐帧时代

全球首个事件级世界模型，终结具身智能逐帧时代

相关图文

慧辰股份“孤独症具身智脑”亮相具身智能产业论坛 切入千亿级康复服务市场

2026全球具身智能产业链协作出海对接会在沪成功举办

报告：长三角具身智能企业数量和融资规模均占全国五成以上

ATHENA将影响函数扩展到十亿参数VLA，实现313倍加速筛选高价值数据

训练世界模型开始从人类肌肉和大脑学习

极智嘉：人形机器人要“真干活”先跨过这三道坎

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

美股盘前：存储芯片股再度下跌，SK海力士、闪迪跌超5%；台积电Q2业绩超预期但股价跌3.85%；英伟达与日本企业扩大机器人合作

DeepSeek再启融资并筹划上市，国产大模型还将带来多少打新机会？

日本企业AI联盟拟采购近3万枚英伟达Rubin芯片，发力机器人生态建设

国产AI编程工具加速突围，ToCodex探索软件研发自主创新新路径

AIGC办公流水线重构：千问将简历写作、PPT制作与数据清洗拆解为可复制执行流程

科创50指数连续2个交易日下跌超4%，算力硬件板块持续低迷，850亿“中药茅”近日现久违涨停

世界机器人大会将至，机器人产业链景气度持续升温，多只个股频获机构调研

算力权益获客模式卷向中小银行，资产提升成新赛道

中国AI跑出加速度背后的四重底气

全栈开放的人形机器人开发底座发布，售价2.39万元起助力低成本开发

推荐专栏

爱力方

机器人大讲堂

下一篇

慧辰股份“孤独症具身智脑”亮相具身智能产业论坛切入千亿级康复服务市场