世界模型推动因果技术突破 具身AI迎来认知能力升级
具身智能技术目前正处于一个普遍面临挑战的阶段,具体表现为这些智能体在真实物理世界中遭遇了“水土不服”的现象。
学界与产业界普遍认识到,那些在模拟环境中展示出优异性能的机器人,一旦被部署到真实的工厂环境里,通常都会立即面临失效或性能急剧下降的情况。这已成为该领域内一个具有挑战性的现实,而这一挑战的核心,正在于智能体所面临的泛化能力瓶颈。
一旦部署环境发生改变,往往需要重新进行数据采集、模型训练与交付部署。机器人所习得的始终只是特定场景下积累的"经验",而并非隐藏在现象背后的普遍"规律"。
在此背景下,为实现让机器真正理解物理世界这一目标,构建“世界模型”已逐渐成为具身智能研究领域近年来最为集中的焦点方向,多种技术路线相继涌现。
近期,一家创立时间不长的公司——Aether AI,宣布其完成了2000万美元规模的种子轮融资。此次融资由经纬创投领投,英诺基金、SWC Global以及九合创投共同参与跟投。该公司的技术路径在业内几乎独树一帜:它既不涉足视频生成,也不进行三维重建,同样未采用JEPA框架,而是选择了一条鲜有同行涉足的方向,即专注于因果世界模型的研究与开发。
该公司指出,当前主流的大模型在本质上依赖于数据表层的相关性,而非底层的因果性,这一特性在真实物理环境中可能难以有效应用。
从本质上讲,因果世界模型旨在使机器人获得类似于人类的理解能力,从而能够真正深入探究事物背后的运作机制及其“为什么”,而不仅仅局限于对事件发生概率的推测。
若将大语言模型、视觉语言动作模型等技术路线类比为拼体格的相扑选手,其力量源于追求更大的算力、参数规模和数据量;而因果世界模型则更侧重于内在修为的修炼,依赖于底层理论上的突破,旨在用更少的数据实现更强的泛化能力,真正达成“四两拨千斤”的效果。
都叫世界模型,但彼此并不一样
首先需要厘清一个基本问题:同样被冠以“世界模型”之名,因果世界模型与其他类型的世界模型究竟存在何种本质区别?
Aether AI的创始人、加州大学圣地亚哥分校(UCSD)助理教授黄碧薇,对当前行业内的主流世界模型进行了系统性的梳理与分类,明确划分出三条主要的技术路线:
视频生成路线主要依赖像素级别的渲染技术,其视觉呈现效果虽然令人印象深刻,但它本质上是对画面序列的表层统计关联进行建模与拟合。这意味着,生成的视觉内容在感知上可能显得流畅且合理,却未必遵循底层的物理规律与因果约束。例如,在缺乏物理引擎约束的情况下,一个虚拟杯子完全可能穿透桌面,只要相邻帧之间的像素过渡足够平滑,模型本身并不会对此产生异常反馈。因此,这类技术路线适用于视觉内容的生成与创作,但在需要精确理解并执行物理交互的任务中,其适用性将面临显著限制。
3D生成路线在空间结构的还原方面表现良好,然而,其本质仅仅是对世界的一个静态快照。对于时间维度上的动力学以及因果交互,这一块基本上是缺失的。仅仅知道物体的位置,并不能等同于理解它会如何运动以及为什么这样运动。
JEPA路线:它去除了像素解码器,转而在隐空间中进行状态转移,这一思路相当巧妙。然而,该路线并未显式地对因果变量与结构进行拆解,导致诸如摩擦力、接触力这类精细的交互信息,往往会在抽象过程中被丢失。
这些技术路线不约而同地聚焦于同一个核心命题:人工智能应如何构建关于现实世界的内在表征模型。然而,黄碧薇在此基础上,进一步追问了一个更为根本性的问题:物理世界自身为何会遵循其固有的规律进行演化?
从这个角度看,因果世界模型构成了第四条技术路线。其将核心学习任务置于隐空间,并以显式方式学习因果变量、因果结构与因果动力学,旨在掌握底层物理规律。该模型所关注的,不止于预测“下一步最可能发生什么”,更着重探究“是什么原因导致了下一步的发生”。

根据黄碧薇的观察,因果世界模型被认为是更根本且不可或缺的进阶形态,是实现物理世界中的通用人工智能的首选技术路径。
从更深层次进行剖析可以发现,因果世界模型包含了三大核心要素:
第一,是因果变量的提取。需要从像素数据与传感器信号这类原始输入中,分离出能够作为物理交互基本单元的独立因果特征,这些特征包括物体的形状参数、运动速度、旋转角速度、接触面的摩擦力系数以及表面粗糙度等属性。
第二,因果结构的学习。这涉及对不同变量之间的影响关系进行建模,例如手施加的力、角度、速度如何共同决定抓取的成功率。在这个框架下,不存在端到端的黑箱;其结构是显式的且可解释的。
第三,是因果动力学的建模。此项任务所关注的是,如何让模型学习到系统状态会随着时间推移和外部动作施加而发生的转移规律。这并非简单地对观测到的轨迹进行曲线拟合,其更深层的目标在于掌握支配这些轨迹背后的、具有物理意义的规则,从而能够在预测时,针对不同动作输入,准确推断出下一时刻世界将呈现的状态。
从完整的系统架构层面审视,Aether AI的构建遵循了清晰的四层设计:其底层依然采用了成熟的Transformer架构——这并非在重新发明技术基石,因为因果性的建模与Transformer本身并不互斥;中间层则融合了因果世界模型与一种模块化的组织形式(其原理与混合专家模型MoE相类似);而位于最顶层的,则是负责决策与执行的智能体系统。
该架构被命名为“因果AI全栈架构”,其覆盖范围从Transformer一直延伸到Agent系统。需要强调的是,它并非在现有模型之上添加因果“插件”,而是将因果思维贯穿于从Transformer到Agent系统的整个架构之中,从而实现了全部由因果关系所驱动的设计。
此外,一个关键点在于:与VLA、WAM等其他模型相比,因果世界模型在数据方面几乎不需要额外的要求。
在数据构成方面,Aether AI约80%的数据借助模拟环境、第一视角与公开视频数据获取,剩余约20%则依赖遥操数据来完成"最后一公里"的部署调优。

面对同样的数据,因果模型能够从中提取出相关性模型所无法识别的深层信息。
这一目标的实现,依赖于因果世界模型所依托的数学与统计理论基础,而这正是该技术路线所面临的核心门槛所在。
从“找规律”到“懂原理”
为什么非做因果不可?
关注AI领域的人都注意到,过去数年间大语言模型的成功推动行业形成了一种朴素信仰,即大力出奇迹:通过堆砌数据规模、算力资源与模型参数,智能化水平便会自然涌现。
这套逻辑在语言世界中确实能够奏效。其原因在于:人类文明数千年积累的知识已经被高度压缩并转化为文字形式,模型只需将语义表层的关联性学到极致的程度,便足以在表现上呈现为“智能”。
但物理世界不提供这种便利。
摩擦力、遮挡、角度、速度……其中的每一项变量都可能对机器人的行为结果产生显著影响,而这些变量之间错综复杂的相互作用关系,仅仅依靠对数据的表面观察,是难以掌握其内在规律的。
统计学中存在一个著名的辛普森悖论现象:以肾结石治疗为例,当忽视结石大小这一隐变量时,对同一份数据集进行分析,甚至可能得出完全相反的结论。如果仅仅考察变量之间的统计相关性,而忽略背后隐藏的因果成因,那么所得到的结论本身就可以发生根本性的逆转。

机器人所面临的,同样是类似的处境。物理世界本身遍布着大量的隐变量。无论是VLA还是WAM,都存在这样的盲区。
根据黄碧薇的分析,LLM、VLA、WAM以及视频生成模型均被归类为“相关性模型”。它们的共同特征在于,虽然擅长对数据中的规律和相关性进行捕捉,但却无法理解数据生成过程中的底层机制。
当前文本为:""(空内容),不存在需要润色的具体文本。如需进行润色,请提供具体的文本内容。
首先,数据短缺的问题始终存在。语言体系虽然能够通过有限的词汇集合进行离散化表征,但机器人所应对的是连续的状态空间与动作空间。物理世界中的变量组合在理论上接近于无限,并且每一次执行动作都会引发数据分布向下一时刻发生偏移,这与传统机器学习所依赖的数据独立性假设构成根本性的矛盾。
此外,场景数据始终存在覆盖盲区。如果泛化能力难以提升,机器人便会始终受困于实验室环境以及精心布置的演示场景中。每更换一个新场景,就需要重新进行适配与迭代。这从根本上揭示了,该模型并未学习到真正具有普适性的底层表征。
第三,物理世界需要直接的干预,而不仅仅是预测。如果语言模型输出一个错误的答案,外部世界并不会因此产生改变。然而,如果机器人输出了一个错误的指令序列,物理世界的状态就会被不可逆地改写。这种被动地“预测下一个token”的范式,在纯语言领域或许可行,但一旦进入需要实际操作的物理世界,它就不再适用了。
因此,Aether AI的判断是,物理AI的答案并非“相关性大模型”,而是“因果性大模型”。
当然,这个判断有坚实的理论基础。
图灵奖得主Judea Pearl提出了“因果之梯”理论,该理论将人工智能对物理世界的理解能力与逻辑推理能力,明确划分成了三个由低到高的层级结构,即关联、干预与反事实。
今天的相关性模型只到了第一层。
举一个典型的例子可以说明这一点。数据呈现的现象显示,冰淇淋的销售量与鲨鱼攻击事件的发生频次呈现出正向关联:销量越高,攻击事件也越多。面对这一现象,需要追问的是:冰淇淋本身是否直接导致了这类事故的发生?还是在表象背后存在某个隐藏的混杂变量,同时对两者的变动产生着影响?对于这类因果层面的问题,相关性模型是无法给出答案的。
实际上,冰淇淋的销售与鲨鱼攻击事件之间并不存在直接的因果联系,它们仅仅是共同受到天气炎热这一因素的驱动。人工智能领域也面临着相似的状况。如果人工智能模型仅仅依据数据中的统计相关性进行学习,那么它往往会推导出许多表面上显得精妙但实际上并不正确的结论。这正是因果推理所不可或缺的原因。
因果模型的核心突破在于其能力可延伸至“因果之梯”的更高层级,即实现干预推理与反事实推理。其中,干预推理旨在理解“如果执行特定的动作,系统将会产生怎样的响应”;而反事实推理则要求模型具备一种历史回溯能力,即能够推演“如果在过去的某个时刻没有执行该动作,世界的状态将会如何演变”。

一旦机器人具备了对因果关系的理解能力,那么其行为的泛化性就会成为一种自然而然的结果。这意味着,它所理解的并非仅仅是“在当前特定场景下采取某种行动能够获得成功”这一表面现象,而是深刻把握了“正是这个动作通过何种具体的物理机制或因果链条,最终导致了那个特定结果”这一本质规律。
其核心机制得以保持稳定,因而无论部署场景发生何种变化,系统都能够有效应对。这种稳定性直接带来了能力层面的显著提升,使得系统在执行长程任务时的表现更为出色。
Aether AI通过内部实验数据对上述结论进行了验证。在机器人操作任务上,相较于传统世界模型,因果世界模型成功实现了25%至50%的任务成功率提升,并带来了5到10倍的样本效率提升。在特定任务场景中,仅需使用50条高质量的数据,便能够使此前屡次失败的任务达到可靠的成功率。
黄碧薇指出,具备因果推理能力的模型,能够借助20%规模的数据,达到与依赖100%数据的相关性模型相当的效果。
AI范式变革可能真的要来了
当我们将视线转回至Aether AI这家初创企业时,可以发现其志向并不仅限于构建单一的机器人公司。
黄碧薇指出:“OpenAI开创并奠定了大语言模型范式的基础,而我们的目标是开创并确立以下一代因果世界模型为核心的全新范式。”
这听起来像是创业公司常见的标准叙事,但由于她背后的学术脉络,使得这件事具备了与众不同的分量。
黄碧薇与因果科学领域的研究缘分,可以追溯到她在德国马普所的求学阶段,至今已持续了整整十三个年头。在她的学术道路上,先后有幸师从于因果发现领域的奠基人Clark Glymour,以及第二代核心推动者Bernhard Schölkopf与Kun Zhang。数十年间,三代因果发现学术成果的传承与积累,在黄碧薇创立Aether AI的这个时间点上,形成了交汇与凝聚,共同注入到一个具身智能的创业项目之中。
黄碧薇将AI的发展阶段划分为了四个演进的范式体系,依次是从相关性小模型到因果性小模型,再到相关性大模型,最终发展为因果性大模型。
当前整个行业正站在第三个范式之上。Aether AI则意图将其推进至第四个范式。
那么, 为什么这件事,偏偏是Aether AI来做?
毫不夸张地说,在人工智能领域,因果学派始终面临着一种“困难模式”。这种模式的形成,源于其自身在数学基础和统计思维方面的严苛要求。因此,真正能够沉心钻研其中的研究者数量极为有限。同时,兼具因果理论深度与工程实践能力的人才更是凤毛麟角,其规模与深度学习领域的从业者相比,完全不在一个量级。
这构成了Aether AI最为深厚的护城河。它并不依赖于数据或算力,而是依靠人才——以及这些人才所积累的多年学术沉淀。
从行业视角来看,VLA技术经过数年演进后,泛化性与数据的瓶颈已经清晰显现,市场因此对新兴路线产生了切实需求。与此同时,因果理论为机器人场景的核心难题提供了基本解法。此外,大模型工程能力与训练基础设施已趋于成熟,具身数据开始形成规模化积累,成本也在快速下降。
在这样的背景下,Aether AI为自己设定的目标显得颇具雄心:预计到明年,机器人将能够具备较强的泛化能力以及处理长程任务的能力;明年稍后阶段,通过整合locomotion与manipulation技术,机器人将能够在开放环境中实现移动与操作任务的协同完成;展望未来,机器人将向开放环境中的移动、操作以及持续学习能力进一步演进。
此次Aether AI所进行的是种子轮融资,这通常代表着从零到一的起步阶段。对于资本而言,成熟路线依赖于执行能力的比拼,而非共识路线则押注于范式的突破。后者一旦取得成功,将产生颠覆性的成果,因此市场对Aether AI的选择,实质上是对此路线的押注。
对于Aether AI而言,真正的关键挑战在于:能否将因果基础模型从理论优势,转化为机器人可量化的泛化能力、长程任务能力及数据效率,从而构建足够深厚、坚固的商业壁垒,直至范式转变。
当前,多种具身智能的技术路径均朝向“物理AI”这一终极目标发起冲击,关于谁更接近目标,目前尚未形成定论。但在一个各家纷纷效仿的技术语境之下,有研究者从根源上对“智能究竟是什么”这一问题进行了重新审视,这本身就已构成了一个值得被认真审视的信号。
来源:世界模型来了因果技术标杆!具身大脑真要长脑子了 | 具身研习社