自变量发布全球首个“世界统一模型”，旨在为机器人提供“新大脑”并推翻VLA旧框架

当全球具身智能赛道还在比拼谁能做出更稳定的双足、更灵活的灵巧手时，自变量机器人又在通用具身智能大模型领域向前推进了一大步。

4月21日，自变量机器人发布WALL-B世界统一模型（World Unified Model, WUM）。这不是其前代大模型WALL-A的升级版，而是一次从底层架构到训练范式的彻底重写。

发布会主题为“一个家庭成员的诞生”，看似温情，实则野心磅礴。因为WALL-B要解决的，正是这个行业最核心的问题：机器人到底能不能真正“理解”这个世界，而不是“模仿”它？

01.

硬件有余，灵魂不足

“目前全球没有任何一台机器人，可以在无遥控操作的情况下，独立完成一次家庭综合整理任务。”

自变量创始人王潜在发布会上，用一个再普通不过的早晨场景，揭开了行业光鲜表象下的真实现状：

拖鞋不知踢到哪里，厨房的碗还没洗，孩子的书包扔在地上，猫打翻了一杯水……

这些对人类来说几乎不构成挑战的碎片任务，对当前所有机器人而言，却是不可能完成的任务。

原因不在于硬件。事实上，今天的双足机器人能后空翻，灵巧手能写毛笔字，力控关节精度已达毫米级，问题出在智能。

“硬件已经到位了，但大脑没有跟上。”

当前主流机器人，本质上是“命令行机器人”或“遥控机器人”。它们的每一个动作，要么被预先编程，要么被远程操控。工厂里的机械臂可以在固定位置重复抓取一万次，但家庭里的一万个动作，每个可能只做一次，每次的环境条件都不一样。

这不是能力的差距，而是范式的失效。

而自变量认为，破局的关键，不在本体，而在模型。不是造一个更强的机器人，而是给机器人一个真正能理解世界的大脑。

02.

WALL-B：从VLA到WUM，一次架构级的“越狱”

要理解WALL-B的意义，首先要理解它取代了什么。

VLA（Vision-Language-Action）架构是目前具身智能领域的主流方案，其结构清晰：视觉模块负责“看”，语言模块负责“理解”，动作模块负责“做”。三个模块各司其职，数据依次传递。

但自变量联合创始人兼CTO王昊指出，VLA的天然缺陷，恰恰藏在这种“分工”里。

数据在模块之间每传递一次，就会发生一次信息损耗和延迟。视觉模块“看到”的丰富空间信息，传到动作模块时，往往只剩一个模糊的摘要。更致命的是，VLA只能“模仿”训练数据中的轨迹，它不理解杯子为什么会掉，也不理解为什么盘子悬在桌边需要推回去。

这就是王潜所说的“模仿而非理解”的天花板。

而WALL-B所采用的世界统一模型（WUM），则是一次彻底的重构。

它的设计思路，很像当年苹果M1芯片的统一内存架构。在M1之前，Mac的CPU、GPU、内存各自独立，数据搬运成为性能瓶颈。而M1让所有处理单元共享同一块内存，性能由此跃升。

WUM做的，正是同一件事：

将视觉、语言、动作、物理预测等所有能力，放在同一个网络中，从零开始联合训练，融为一体。

没有模块边界，没有数据搬运，没有信息损耗。

基于这一架构，WALL-B实现了三项现有模型不具备的核心能力：

1. 原生多模态+本体感

WALL-B从训练第一天起，就同时接收视觉、听觉、触觉、语言、动作等多模态数据，实现“多模态进、多模态出”。它不需要“传话”——看到杯子的同时，就已经在准备伸手；感觉到重量的同时，就已经在调整力度。

更重要的是，WALL-B首次展现出一种被称为“原生本体感”的能力。它不需要持续观察自身全身，就能内在地感知自己的高度、宽度、手臂伸展范围，判断能否通过某个空间或触及某个物体。这是一种内生的空间感知能力，而非通过外部测量或建模获得。王昊指出，这一点甚至许多动物都不具备。

2. 物理世界的“世界观”

WALL-B能够感知并预测重力、惯性、摩擦力、速度等基本物理规律。

比如，一个盘子一半悬空在桌沿外——它不需要见过这种情况，就能推断出盘子会掉落、摔碎，从而采取预防动作。

这种对物理规律的理解，正是零样本泛化的基础。因为物理规律在不同环境中是一致的，WALL-B进入任何一个从未去过的家庭，都能利用对物理常识的理解来应对新场景，不需要重新训练。

3. 与世界交互并自我进化

这是WUM架构与所有VLA模型最根本的区别。

目前的机器人在任务失败后，通常直接停止，返回错误信息。而WALL-B的行为模式完全不同：它会调整策略再次尝试，如果成功，就将这次成功的经验直接更新到模型参数中。

这意味着，它不需要工程师重新训练、不需要人工注入新数据、不需要返回实验室。它在真实环境中完成自我迭代。

王昊将其类比为人类学习使用筷子：筷子掉了无数次，但每一次失败都在调整手上的控制，最终形成稳定的技能。

这就是“与世界交互”的真正含义，不是被动执行，而是主动学习。

03.

数据飞轮：为什么“牛奶数据”才是真正的护城河？

在具身智能领域，有一个行业共识：算法可以复制，算力可以购买，但数据无法速成。

而自变量在这个维度上，构建了一条几乎不可复制的护城河。

王昊在发布会上提出了两个很有趣的概念：“糖水数据”与“牛奶数据”。

糖水数据：实验室中采集的干净、可控、量大的数据。光照固定、物体位置固定、无干扰。这种数据像“糖水”，好喝但没营养。

牛奶数据：真实家庭环境中采集的嘈杂、多变、充满随机性的数据。拖鞋散落、猫突然跳上桌、灯光忽冷忽热。这种数据像“牛奶”，有营养，但难采集。

行业普遍在用“糖水数据”训练模型，然后奇怪为什么一到真实环境就失效。

而自变量的选择是：实验数据打底，真实场景提质。

实验室数据用于建立基本能力——识别常见物体、执行基础动作。而真实家庭数据，才是模型学会在不确定环境中生存的关键。

为了获取“牛奶数据”，自变量团队进入了超过100个志愿者的真实家庭，进行模型训练。每一户家庭的布局、灯光、物品摆放和混乱程度各不相同。

这些变量在实验室中无法模拟，但却是家庭环境中的日常。

而更重要的是，WALL-B的“与世界交互”能力，开启了一个自我强化的数据飞轮：

进入真实家庭 → 产生真实数据 → 模型自我进化 → 能力更强 → 进入更多家庭

这个飞轮一旦启动，数据本身就成为了模型进化的燃料。自变量的领先优势，将不断扩大。

04.

35天进家庭：“实习生”机器人的第一份工作

在商业化落地上，自变量给出了一个极其激进的时间表：35天后，搭载WALL-B的新一代机器人，将入驻首批真实家庭。

这不是demo，而是真正的“上岗”。

王潜坦承，当前模型仍处于“实习生”阶段，需要远程协助，有时可能把拖鞋放到厨房、擦桌子擦到一半停下来“思考”。

但它有两个无可替代的优势：

24小时在岗，不会累、不会请假、不会情绪化。

每工作一天，都会因为新数据的产生而变得更“聪明”。

在隐私方面，自变量也给出了明确解决方案：视觉脱敏、透明授权、用途限定，确保原始图像不上传、开机需用户主动同意、数据绝不共享给第三方。

在商业模式上，自变量也没有走传统的“卖硬件”路线，而是更接近服务订阅模式。机器人本身只是载体，于行业而言，真正创造长期价值的，是它不断进化的能力，以及由此产生的数据资产；于用户而言，是每天实实在在完成的各种不同的家务活儿。

05.

结语

发布会最后，王潜说了这样一段话：

“尽管进入家庭的机器人现在还很笨，走得很慢，经常犯错。人类从婴儿时期迈出的第一步也是如此。每一个伟大的旅程，都是从踉踉跄跄的第一步开始的。”

WALL-B不是终点，甚至不是“第二个版本”。它是一个新范式的起点。

在VLA“统治”了具身智能三年之后，世界统一模型（WUM）或许第一次让机器人拥有了真正的“世界观”——它能理解物理规律，能感知自身边界，能在真实世界中不断学习、自我进化。

35天后，第一批“机器人实习生”将走进真实家庭。

而这，正是“一个家庭成员”真正的诞生。

来源：推翻VLA“旧世界”，自变量发布全球首个“世界统一模型”！机器人终于有了“新大脑” | 机器人大讲堂

通知

尊敬的用户

user

资讯

自变量发布全球首个“世界统一模型”，旨在为机器人提供“新大脑”并推翻VLA旧框架

自变量发布全球首个“世界统一模型”，旨在为机器人提供“新大脑”并推翻VLA旧框架

相关图文

睿尔曼亮相FAIR plus 2026：以可靠硬件与批量交付能力夯实“真·干活”机器人产业生态圈

光码未来推出低成本无磁干扰光电方案，实现指尖光学触觉与接近觉人体识别

广东：重点布局人形机器人设计制造推动人工智能与机器人“大脑”“小脑”及机身协同研发

广东：支持基于开源鸿蒙的机器人等多领域操作系统生态发展

勇士挑战赛“无人区”最大赢家：智身科技如何跨越自主导航生死门槛

前小鹏副总裁李力耘出任众擎CTO，推动最强本体与顶级智驾大脑融合

热门资讯

微信支付AI接入工具箱正式上线一句话即可生成收款工具

邦邦车与京东健康达成战略合作：AI+辅助出行的中国样本

智元发布GO-2具身大模型：首创动作思维链，刷新行业SOTA

智源研究院发布RoboClaw具身智能操作系统，让机器人开箱即用

谷歌新技术冲击市场美芯片股市值暴跌

国内首次发布AI红队！谋乐Elliot开创AI攻防新赛道

快讯

GE Vernova第一季度订单大幅增长，AI时代能源新周期加速爆发

技术品牌持续扩容，鸿蒙智行集齐六大“王牌”布局L3商业化落地｜北京车展季

摩根士丹利：AI将重塑游戏业，成本有望减半并释放220亿美元利润

控股股东终止4.78亿元股权交易，京北方AI及大数据创新产品线增速达55.63%

独家分析：从马拉松赛事看具身智能的领先窗口期已大幅压缩

Fairplus揭秘一目科技：如何用触觉技术重塑柔性装配边界，告别对绝对精度的过度依赖

Science子刊发表“运动学智能”，有望破解机器人换机需重头教技能难题

英特尔首提智能体PC概念，数字员工元年“龙虾”“爱马仕”接连爆火，软硬件厂商紧抓机遇

速腾聚创CEO邱纯潮：从线数到像素，芯片将决定激光雷达产业未来格局

自变量发布全球首个“世界统一模型”，旨在为机器人提供“新大脑”并推翻VLA旧框架

推荐专栏

爱力方

机器人大讲堂

下一篇

user

资讯

自变量发布全球首个“世界统一模型”，旨在为机器人提供“新大脑”并推翻VLA旧框架

自变量发布全球首个“世界统一模型”，旨在为机器人提供“新大脑”并推翻VLA旧框架

相关图文

睿尔曼亮相FAIR plus 2026：以可靠硬件与批量交付能力夯实“真·干活”机器人产业生态圈

光码未来推出低成本无磁干扰光电方案，实现指尖光学触觉与接近觉人体识别

广东：重点布局人形机器人设计制造 推动人工智能与机器人“大脑”“小脑”及机身协同研发

广东：支持基于开源鸿蒙的机器人等多领域操作系统生态发展

勇士挑战赛“无人区”最大赢家：智身科技如何跨越自主导航生死门槛

前小鹏副总裁李力耘出任众擎CTO，推动最强本体与顶级智驾大脑融合

热门资讯

微信支付AI接入工具箱正式上线 一句话即可生成收款工具

邦邦车与京东健康达成战略合作：AI+辅助出行的中国样本

智元发布GO-2具身大模型：首创动作思维链，刷新行业SOTA

智源研究院发布RoboClaw具身智能操作系统，让机器人开箱即用

谷歌新技术冲击市场 美芯片股市值暴跌

国内首次发布AI红队！谋乐Elliot开创AI攻防新赛道

快讯

GE Vernova第一季度订单大幅增长，AI时代能源新周期加速爆发

技术品牌持续扩容，鸿蒙智行集齐六大“王牌”布局L3商业化落地｜北京车展季

摩根士丹利：AI将重塑游戏业，成本有望减半并释放220亿美元利润

控股股东终止4.78亿元股权交易，京北方AI及大数据创新产品线增速达55.63%

独家分析：从马拉松赛事看具身智能的领先窗口期已大幅压缩

Fairplus揭秘一目科技：如何用触觉技术重塑柔性装配边界，告别对绝对精度的过度依赖

Science子刊发表“运动学智能”，有望破解机器人换机需重头教技能难题

英特尔首提智能体PC概念，数字员工元年“龙虾”“爱马仕”接连爆火，软硬件厂商紧抓机遇

速腾聚创CEO邱纯潮：从线数到像素，芯片将决定激光雷达产业未来格局

自变量发布全球首个“世界统一模型”，旨在为机器人提供“新大脑”并推翻VLA旧框架

推荐专栏

爱力方

机器人大讲堂

下一篇

广东：重点布局人形机器人设计制造推动人工智能与机器人“大脑”“小脑”及机身协同研发

微信支付AI接入工具箱正式上线一句话即可生成收款工具

谷歌新技术冲击市场美芯片股市值暴跌