自变量发布全球首个“世界统一模型”,旨在为机器人提供“新大脑”并推翻VLA旧框架

2026年04月22日 22:10
本文共计3156个字,预计阅读时长11分钟。
来源/机器人大讲堂 责编/爱力方

当全球具身智能赛道还在比拼谁能做出更稳定的双足、更灵活的灵巧手时,自变量机器人又在通用具身智能大模型领域向前推进了一大步。

4月21日,自变量机器人发布WALL-B世界统一模型(World Unified Model, WUM)。这不是其前代大模型WALL-A的升级版,而是一次从底层架构到训练范式的彻底重写。

 

发布会主题为“一个家庭成员的诞生”,看似温情,实则野心磅礴。因为WALL-B要解决的,正是这个行业最核心的问题:机器人到底能不能真正“理解”这个世界,而不是“模仿”它?

01.

硬件有余,灵魂不足

“目前全球没有任何一台机器人,可以在无遥控操作的情况下,独立完成一次家庭综合整理任务。”

自变量创始人王潜在发布会上,用一个再普通不过的早晨场景,揭开了行业光鲜表象下的真实现状:

拖鞋不知踢到哪里,厨房的碗还没洗,孩子的书包扔在地上,猫打翻了一杯水……

这些对人类来说几乎不构成挑战的碎片任务,对当前所有机器人而言,却是不可能完成的任务。

原因不在于硬件。事实上,今天的双足机器人能后空翻,灵巧手能写毛笔字,力控关节精度已达毫米级,问题出在智能。

 

“硬件已经到位了,但大脑没有跟上。”

当前主流机器人,本质上是“命令行机器人”或“遥控机器人”。它们的每一个动作,要么被预先编程,要么被远程操控。工厂里的机械臂可以在固定位置重复抓取一万次,但家庭里的一万个动作,每个可能只做一次,每次的环境条件都不一样。

这不是能力的差距,而是范式的失效。

而自变量认为,破局的关键,不在本体,而在模型。不是造一个更强的机器人,而是给机器人一个真正能理解世界的大脑。

02.

WALL-B:从VLA到WUM,一次架构级的“越狱”

要理解WALL-B的意义,首先要理解它取代了什么。

VLA(Vision-Language-Action)架构是目前具身智能领域的主流方案,其结构清晰:视觉模块负责“看”,语言模块负责“理解”,动作模块负责“做”。三个模块各司其职,数据依次传递。

但自变量联合创始人兼CTO王昊指出,VLA的天然缺陷,恰恰藏在这种“分工”里。

数据在模块之间每传递一次,就会发生一次信息损耗和延迟。视觉模块“看到”的丰富空间信息,传到动作模块时,往往只剩一个模糊的摘要。更致命的是,VLA只能“模仿”训练数据中的轨迹,它不理解杯子为什么会掉,也不理解为什么盘子悬在桌边需要推回去。

这就是王潜所说的“模仿而非理解”的天花板。

而WALL-B所采用的世界统一模型(WUM),则是一次彻底的重构。

 

它的设计思路,很像当年苹果M1芯片的统一内存架构。在M1之前,Mac的CPU、GPU、内存各自独立,数据搬运成为性能瓶颈。而M1让所有处理单元共享同一块内存,性能由此跃升。

WUM做的,正是同一件事:

将视觉、语言、动作、物理预测等所有能力,放在同一个网络中,从零开始联合训练,融为一体。

没有模块边界,没有数据搬运,没有信息损耗。

基于这一架构,WALL-B实现了三项现有模型不具备的核心能力:

1. 原生多模态+本体感

WALL-B从训练第一天起,就同时接收视觉、听觉、触觉、语言、动作等多模态数据,实现“多模态进、多模态出”。它不需要“传话”——看到杯子的同时,就已经在准备伸手;感觉到重量的同时,就已经在调整力度。

更重要的是,WALL-B首次展现出一种被称为“原生本体感”的能力。它不需要持续观察自身全身,就能内在地感知自己的高度、宽度、手臂伸展范围,判断能否通过某个空间或触及某个物体。这是一种内生的空间感知能力,而非通过外部测量或建模获得。王昊指出,这一点甚至许多动物都不具备。

 

2. 物理世界的“世界观”

WALL-B能够感知并预测重力、惯性、摩擦力、速度等基本物理规律。

比如,一个盘子一半悬空在桌沿外——它不需要见过这种情况,就能推断出盘子会掉落、摔碎,从而采取预防动作。

这种对物理规律的理解,正是零样本泛化的基础。因为物理规律在不同环境中是一致的,WALL-B进入任何一个从未去过的家庭,都能利用对物理常识的理解来应对新场景,不需要重新训练。

3. 与世界交互并自我进化

这是WUM架构与所有VLA模型最根本的区别。

目前的机器人在任务失败后,通常直接停止,返回错误信息。而WALL-B的行为模式完全不同:它会调整策略再次尝试,如果成功,就将这次成功的经验直接更新到模型参数中。

这意味着,它不需要工程师重新训练、不需要人工注入新数据、不需要返回实验室。它在真实环境中完成自我迭代。

王昊将其类比为人类学习使用筷子:筷子掉了无数次,但每一次失败都在调整手上的控制,最终形成稳定的技能。

这就是“与世界交互”的真正含义,不是被动执行,而是主动学习。

03.

数据飞轮:为什么“牛奶数据”才是真正的护城河?

在具身智能领域,有一个行业共识:算法可以复制,算力可以购买,但数据无法速成。

而自变量在这个维度上,构建了一条几乎不可复制的护城河。

王昊在发布会上提出了两个很有趣的概念:“糖水数据”与“牛奶数据”。

 

糖水数据:实验室中采集的干净、可控、量大的数据。光照固定、物体位置固定、无干扰。这种数据像“糖水”,好喝但没营养。

牛奶数据:真实家庭环境中采集的嘈杂、多变、充满随机性的数据。拖鞋散落、猫突然跳上桌、灯光忽冷忽热。这种数据像“牛奶”,有营养,但难采集。

行业普遍在用“糖水数据”训练模型,然后奇怪为什么一到真实环境就失效。

而自变量的选择是:实验数据打底,真实场景提质。

实验室数据用于建立基本能力——识别常见物体、执行基础动作。而真实家庭数据,才是模型学会在不确定环境中生存的关键。

为了获取“牛奶数据”,自变量团队进入了超过100个志愿者的真实家庭,进行模型训练。每一户家庭的布局、灯光、物品摆放和混乱程度各不相同。

这些变量在实验室中无法模拟,但却是家庭环境中的日常。

而更重要的是,WALL-B的“与世界交互”能力,开启了一个自我强化的数据飞轮:

进入真实家庭 → 产生真实数据 → 模型自我进化 → 能力更强 → 进入更多家庭

这个飞轮一旦启动,数据本身就成为了模型进化的燃料。自变量的领先优势,将不断扩大。

04.

35天进家庭:“实习生”机器人的第一份工作

在商业化落地上,自变量给出了一个极其激进的时间表:35天后,搭载WALL-B的新一代机器人,将入驻首批真实家庭。

这不是demo,而是真正的“上岗”。

王潜坦承,当前模型仍处于“实习生”阶段,需要远程协助,有时可能把拖鞋放到厨房、擦桌子擦到一半停下来“思考”。

 

但它有两个无可替代的优势:

24小时在岗,不会累、不会请假、不会情绪化。

每工作一天,都会因为新数据的产生而变得更“聪明”。

在隐私方面,自变量也给出了明确解决方案:视觉脱敏、透明授权、用途限定,确保原始图像不上传、开机需用户主动同意、数据绝不共享给第三方。

在商业模式上,自变量也没有走传统的“卖硬件”路线,而是更接近服务订阅模式。机器人本身只是载体,于行业而言,真正创造长期价值的,是它不断进化的能力,以及由此产生的数据资产;于用户而言,是每天实实在在完成的各种不同的家务活儿。

05.

结语

发布会最后,王潜说了这样一段话:

“尽管进入家庭的机器人现在还很笨,走得很慢,经常犯错。人类从婴儿时期迈出的第一步也是如此。每一个伟大的旅程,都是从踉踉跄跄的第一步开始的。”

 

WALL-B不是终点,甚至不是“第二个版本”。它是一个新范式的起点。

在VLA“统治”了具身智能三年之后,世界统一模型(WUM)或许第一次让机器人拥有了真正的“世界观”——它能理解物理规律,能感知自身边界,能在真实世界中不断学习、自我进化。

35天后,第一批“机器人实习生”将走进真实家庭。

而这,正是“一个家庭成员”真正的诞生。

来源:推翻VLA“旧世界”,自变量发布全球首个“世界统一模型”!机器人终于有了“新大脑” | 机器人大讲堂

声明:本文来自机器人大讲堂,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/