当全球具身智能赛道还在比拼谁能做出更稳定的双足、更灵活的灵巧手时,自变量机器人又在通用具身智能大模型领域向前推进了一大步。
4月21日,自变量机器人发布WALL-B世界统一模型(World Unified Model, WUM)。这不是其前代大模型WALL-A的升级版,而是一次从底层架构到训练范式的彻底重写。
发布会主题为“一个家庭成员的诞生”,看似温情,实则野心磅礴。因为WALL-B要解决的,正是这个行业最核心的问题:机器人到底能不能真正“理解”这个世界,而不是“模仿”它?
01.
硬件有余,灵魂不足
“目前全球没有任何一台机器人,可以在无遥控操作的情况下,独立完成一次家庭综合整理任务。”
自变量创始人王潜在发布会上,用一个再普通不过的早晨场景,揭开了行业光鲜表象下的真实现状:
拖鞋不知踢到哪里,厨房的碗还没洗,孩子的书包扔在地上,猫打翻了一杯水……
这些对人类来说几乎不构成挑战的碎片任务,对当前所有机器人而言,却是不可能完成的任务。
原因不在于硬件。事实上,今天的双足机器人能后空翻,灵巧手能写毛笔字,力控关节精度已达毫米级,问题出在智能。
“硬件已经到位了,但大脑没有跟上。”
当前主流机器人,本质上是“命令行机器人”或“遥控机器人”。它们的每一个动作,要么被预先编程,要么被远程操控。工厂里的机械臂可以在固定位置重复抓取一万次,但家庭里的一万个动作,每个可能只做一次,每次的环境条件都不一样。
这不是能力的差距,而是范式的失效。
而自变量认为,破局的关键,不在本体,而在模型。不是造一个更强的机器人,而是给机器人一个真正能理解世界的大脑。
02.
WALL-B:从VLA到WUM,一次架构级的“越狱”
要理解WALL-B的意义,首先要理解它取代了什么。
VLA(Vision-Language-Action)架构是目前具身智能领域的主流方案,其结构清晰:视觉模块负责“看”,语言模块负责“理解”,动作模块负责“做”。三个模块各司其职,数据依次传递。
但自变量联合创始人兼CTO王昊指出,VLA的天然缺陷,恰恰藏在这种“分工”里。
数据在模块之间每传递一次,就会发生一次信息损耗和延迟。视觉模块“看到”的丰富空间信息,传到动作模块时,往往只剩一个模糊的摘要。更致命的是,VLA只能“模仿”训练数据中的轨迹,它不理解杯子为什么会掉,也不理解为什么盘子悬在桌边需要推回去。
这就是王潜所说的“模仿而非理解”的天花板。
而WALL-B所采用的世界统一模型(WUM),则是一次彻底的重构。
它的设计思路,很像当年苹果M1芯片的统一内存架构。在M1之前,Mac的CPU、GPU、内存各自独立,数据搬运成为性能瓶颈。而M1让所有处理单元共享同一块内存,性能由此跃升。
WUM做的,正是同一件事:
将视觉、语言、动作、物理预测等所有能力,放在同一个网络中,从零开始联合训练,融为一体。
没有模块边界,没有数据搬运,没有信息损耗。
基于这一架构,WALL-B实现了三项现有模型不具备的核心能力:
1. 原生多模态+本体感
WALL-B从训练第一天起,就同时接收视觉、听觉、触觉、语言、动作等多模态数据,实现“多模态进、多模态出”。它不需要“传话”——看到杯子的同时,就已经在准备伸手;感觉到重量的同时,就已经在调整力度。
更重要的是,WALL-B首次展现出一种被称为“原生本体感”的能力。它不需要持续观察自身全身,就能内在地感知自己的高度、宽度、手臂伸展范围,判断能否通过某个空间或触及某个物体。这是一种内生的空间感知能力,而非通过外部测量或建模获得。王昊指出,这一点甚至许多动物都不具备。
2. 物理世界的“世界观”
WALL-B能够感知并预测重力、惯性、摩擦力、速度等基本物理规律。
比如,一个盘子一半悬空在桌沿外——它不需要见过这种情况,就能推断出盘子会掉落、摔碎,从而采取预防动作。
这种对物理规律的理解,正是零样本泛化的基础。因为物理规律在不同环境中是一致的,WALL-B进入任何一个从未去过的家庭,都能利用对物理常识的理解来应对新场景,不需要重新训练。
3. 与世界交互并自我进化
这是WUM架构与所有VLA模型最根本的区别。
目前的机器人在任务失败后,通常直接停止,返回错误信息。而WALL-B的行为模式完全不同:它会调整策略再次尝试,如果成功,就将这次成功的经验直接更新到模型参数中。
这意味着,它不需要工程师重新训练、不需要人工注入新数据、不需要返回实验室。它在真实环境中完成自我迭代。
王昊将其类比为人类学习使用筷子:筷子掉了无数次,但每一次失败都在调整手上的控制,最终形成稳定的技能。
这就是“与世界交互”的真正含义,不是被动执行,而是主动学习。
03.
数据飞轮:为什么“牛奶数据”才是真正的护城河?
在具身智能领域,有一个行业共识:算法可以复制,算力可以购买,但数据无法速成。
而自变量在这个维度上,构建了一条几乎不可复制的护城河。
王昊在发布会上提出了两个很有趣的概念:“糖水数据”与“牛奶数据”。
糖水数据:实验室中采集的干净、可控、量大的数据。光照固定、物体位置固定、无干扰。这种数据像“糖水”,好喝但没营养。
牛奶数据:真实家庭环境中采集的嘈杂、多变、充满随机性的数据。拖鞋散落、猫突然跳上桌、灯光忽冷忽热。这种数据像“牛奶”,有营养,但难采集。
行业普遍在用“糖水数据”训练模型,然后奇怪为什么一到真实环境就失效。
而自变量的选择是:实验数据打底,真实场景提质。
实验室数据用于建立基本能力——识别常见物体、执行基础动作。而真实家庭数据,才是模型学会在不确定环境中生存的关键。
为了获取“牛奶数据”,自变量团队进入了超过100个志愿者的真实家庭,进行模型训练。每一户家庭的布局、灯光、物品摆放和混乱程度各不相同。
这些变量在实验室中无法模拟,但却是家庭环境中的日常。
而更重要的是,WALL-B的“与世界交互”能力,开启了一个自我强化的数据飞轮:
进入真实家庭 → 产生真实数据 → 模型自我进化 → 能力更强 → 进入更多家庭
这个飞轮一旦启动,数据本身就成为了模型进化的燃料。自变量的领先优势,将不断扩大。
04.
35天进家庭:“实习生”机器人的第一份工作
在商业化落地上,自变量给出了一个极其激进的时间表:35天后,搭载WALL-B的新一代机器人,将入驻首批真实家庭。
这不是demo,而是真正的“上岗”。
王潜坦承,当前模型仍处于“实习生”阶段,需要远程协助,有时可能把拖鞋放到厨房、擦桌子擦到一半停下来“思考”。
但它有两个无可替代的优势:
24小时在岗,不会累、不会请假、不会情绪化。
每工作一天,都会因为新数据的产生而变得更“聪明”。
在隐私方面,自变量也给出了明确解决方案:视觉脱敏、透明授权、用途限定,确保原始图像不上传、开机需用户主动同意、数据绝不共享给第三方。
在商业模式上,自变量也没有走传统的“卖硬件”路线,而是更接近服务订阅模式。机器人本身只是载体,于行业而言,真正创造长期价值的,是它不断进化的能力,以及由此产生的数据资产;于用户而言,是每天实实在在完成的各种不同的家务活儿。
05.
结语
发布会最后,王潜说了这样一段话:
“尽管进入家庭的机器人现在还很笨,走得很慢,经常犯错。人类从婴儿时期迈出的第一步也是如此。每一个伟大的旅程,都是从踉踉跄跄的第一步开始的。”
WALL-B不是终点,甚至不是“第二个版本”。它是一个新范式的起点。
在VLA“统治”了具身智能三年之后,世界统一模型(WUM)或许第一次让机器人拥有了真正的“世界观”——它能理解物理规律,能感知自身边界,能在真实世界中不断学习、自我进化。
35天后,第一批“机器人实习生”将走进真实家庭。
而这,正是“一个家庭成员”真正的诞生。