LiberAI撕开隐形裂缝,重构世界模型

2026年06月01日 21:47
本文共计6326个字,预计阅读时长22分钟。
来源/机器人大讲堂 责编/爱力方

AI 已经很强,但还差最关键的一步

当前人工智能已具备十分强大的功能,能够撰写学术论文、编写程序代码以及成功生成高度逼真的图像与视频。然而,在从“知道”迈向“理解”、从“生成”转向“行动”的转化方面,其间依然横亘着一道巨大的鸿沟。

这也恰是 OpenAI、谷歌与微软等顶级科技公司,并联合 Yann LeCun、李飞飞等人工智能研究领域最具影响力的学者,将其研究重心共同聚焦于世界模型(World Model)这一方向的根本原因。

而将视线转向国内,近日一家致力于打造全球首创物理世界模型的新锐高潜企业浮出了水面——由清华00后特奖得主刘松铭所领衔的LiberAI,已连续完成了种子轮、天使轮以及天使+轮融资,融资金额达数亿元,并获得真格基金、红杉中国、美团龙珠、顺为资本等一众头部基金的联合押注。LiberAI以物理智能为纵轴,目标是推出Scaling曲线最为陡峭的世界模型。

创始人/CEO 刘松铭

要想真正理解LiberAI取得突破的关键,或许应当从世界模型的本质特性出发来探寻。

02.

若想要理解世界模型所蕴含的价值,不妨首先来考察人类究竟是如何采取行动的。

当你走到桌子旁边的时候,看到的是一只装满水的玻璃杯正悬在桌子边缘。在这种情况下,你的大脑会自动进行模拟,提前想象出杯子掉落并摔碎的画面。因此,你就会下意识地伸出手,将杯子往桌子里面推一推。

这种“在头脑中预先模拟未来情景”的能力,本质上构成了人类所拥有的世界模型。

当下的机器人大脑,恰恰缺失这种能力。VLA的本质是一种模仿学习策略,倘若机器人仅仅是机械地记忆并复现人类教授的动作以完成任务,那么一旦环境出现丝毫变化,它便会陷入茫然,只能生硬地模仿动作序列,而无法真正理解动作背后所蕴含的物理规律。

当前机器人所真正需要的,或许是从简单模仿动作向进行因果推理的根本性质变。这不仅仅是理解世界的表象,更是要能够预判“倘若我执行了某个特定动作,世界将会产生何种变化”。

03.

那什么是世界模型?

围绕着“倘若我执行了这一动作,那么世界随后将会产生怎样的变化”这一核心问题的具体界定与求解路径,直接催生了当前几个主要的技术流派。

• 视频生成派:data-driven,但学习的是相关性

视频生成派以OpenAI的Sora、谷歌的Genie为代表,是当前最为广泛的路线,其核心思路在于借助海量的视频数据来训练模型,从而能够直接在像素空间当中对世界的演变进行预测。

该路线所具备的最为显著的优势在于其可扩展性极为突出。互联网上积累的海量视频数据,能够自然地成为其训练素材,其本质上属于完全数据驱动(data-driven)的路径。

但这一路线的根本局限在于:模型本质上仅在执行"预测下一帧像素"的任务,未能真正理解三维空间与物理因果关系。经过海量视频训练后,模型所记住的仅是像素演变的统计规律,而非对时空与物理规律的真正理解。

* 3D Spatial Intelligence School: starting from 3D space, it reconstructs the world, not using an end-to-end approach.

以李飞飞所创立的 World Labs 作为代表,这一流派仿佛建筑师一般,通过显式的方式重建出整个世界的空间结构,随后在此基础之上实时渲染出二维画面。

它的核心优势在于三维空间的一致性维持方面表现极为突出,然而这条技术路线的发展道路上横亘着两个难以逾越的结构性瓶颈。

首先面临的是数据与成本方面的挑战:高质量的3D数据在互联网上极度稀缺,采集设备不仅昂贵,而且流程也十分繁琐,同时在算力消耗方面也远高于视频路线。

第二是流程存在割裂性的问题:三维空间的重构与世界动态演变的模拟,实际上是两个相互独立、先后执行的步骤。这种分离的架构,从根本上阻碍了模型进行彻底的端到端优化。具体而言,它使得描述世界“外观形态”的静态表征,与刻画世界“运动规律”的动态建模之间,无法实现深度的协同与联合训练。正是由于这种内在的协同性缺失,导致了模型在整体上的Scaling效率受到明显制约。

• 隐空间预测(JEPA)派:不对世界进行具象化的绘制,而是专注于提炼其中的抽象本质

LeCun的核心判断在于:当人在街道上行走并进行决策时,大脑并不会对每一位行人的面部进行精确预测。真正具有价值的,是更高层级的抽象信息——前方有行人,需要绕开。

因此,JEPA彻底舍弃了像素层面的生成,转而选择在隐空间中直接预测世界状态所发生的变化。其核心机制在于训练一种特征表示,为了实现这一点,模型会迫使预测器(Predictor)依据这份表征信息,从而能够重构出输入数据中被掩码(mask)技术所隐藏、剔除的局部内容与动态片段。

其优点在于,这样的计算效率会极高,并且天然地摒弃了无用细节;从理论上来讲,所提炼出的抽象表示,会更适合Agent来进行动作规划。

缺点有两个层面。

一是验证困难:隐空间当中的内容既无法被直接观察,也难以进行直观感知,没有人能够确切地判断模型究竟"理解"了什么内容,从而给评估与调试带来了极大的不便。

二是生态割裂:JEPA所构造的,是一套全新的表征空间,这使得它很难直接继承整个行业在语言以及视频方向上已积累的技术红利。

• 物理引擎派:将物理规律编码为数学公式,但存在仿真到现实的映射差距(Sim-to-Real Gap)

以英伟达的 Isaac 以及 Genesis 为代表,该流派所采用的逻辑最为直接:尝试借助数学公式来表达物理规律,并将重力、摩擦力、流体动力学等要素写入虚拟环境之中。

然而,这条技术路线所面临的核心矛盾,始终在于仿真与现实之间的映射差距(Sim-to-Real Gap)。那些被预先写入代码库当中的物理公式,其本质都是人类对自然规律所进行的近似与简化,描述的是理想情况。例如,极柔软物体的形变、非结构化环境中未知的摩擦系数,以及各种不同材质之间复杂的接触力学——这些在真实世界中无所不在的细节情况,几乎不可能被完美地加以仿真。

• 世界动作模型(WAM)派:主张借助对世界状态变化的预测,来同步生成并输出相应的动作指令。

以英伟达的 DreamZero 作为代表,WAM 迈出了更为关键的一步,从而成功地将'理解世界'与'指导行动'这两项核心能力统一在了同一个模型框架当中。

模型首先在内部空间生成执行任务的未来视频,随后将这套"脑内画面"转换为精确的电机控制信号。

这种架构带来了两个额外的好处:

首先,视频生成派能够借助海量的互联网视频数据进行训练,其可扩展性方面表现突出,本质上属于一种完全数据驱动的路径。然而,该路线的根本局限在于:模型仅仅在执行“预测下一帧像素”的任务,未能真正理解三维空间与物理因果关系。经过海量视频训练后,模型所记住的仅是像素演变的统计规律,而非对时空与物理规律的真正理解。

其次,以李飞飞所创立的 World Labs 作为代表的3D空间智能派,其仿佛建筑师一般,通过显式的方式重建出整个世界的空间结构,随后在此基础之上实时渲染出二维画面。它的核心优势在于三维空间的一致性维持方面表现极为突出,然而这条技术路线的发展道路上横亘着两个难以逾越的结构性瓶颈。首先面临的是数据与成本方面的挑战:高质量的3D数据在互联网上极度稀缺,采集设备不仅昂贵,而且流程也十分繁琐,同时在算力消耗方面也远高于视频路线。第二是流程存在割裂性的问题:三维空间的重构与世界动态演变的模拟,实际上是两个相互独立、先后执行的步骤。这种分离的架构,从根本上阻碍了模型进行彻底的端到端优化。具体而言,它使得描述世界“外观形态”的静态表征,与刻画世界“运动规律”的动态建模之间,无法实现深度的协同与联合训练。正是由于这种内在的协同性缺失,导致了模型在整体上的Scaling效率受到明显制约。

第三,以 Yann LeCun 为核心倡导的JEPA派,不对世界进行具象化的绘制,而是专注于提炼其中的抽象本质。LeCun的核心判断在于:当人在街道上行走并进行决策时,大脑并不会对每一位行人的面部进行精确预测。真正具有价值的,是更高层级的抽象信息——前方有行人,需要绕开。因此,JEPA彻底舍弃了像素层面的生成,转而选择在隐空间中直接预测世界状态所发生的变化。其核心机制在于训练一种特征表示,为了实现这一点,模型会迫使预测器依据这份表征信息,从而能够重构出输入数据中被掩码技术所隐藏、剔除的局部内容与动态片段。其优点在于,这样的计算效率会极高,并且天然地摒弃了无用细节;从理论上来讲,所提炼出的抽象表示,会更适合智能体来进行动作规划。但这条路线也存在两个根本性的难题。一是验证困难:隐空间当中的内容既无法被直接观察,也难以进行直观感知,没有人能够确切地判断模型究竟“理解”了什么内容,从而给评估与调试带来了极大的不便。二是生态割裂:JEPA所构造的,是一套全新的表征空间,这使得它很难直接继承整个行业在语言以及视频方向上已积累的技术红利。

第四,以英伟达的 Isaac 以及 Genesis 作为代表的物理引擎派,该流派所采用的逻辑最为直接:尝试借助数学公式来表达物理规律,并将重力、摩擦力、流体动力学等要素写入虚拟环境之中。然而,这条技术路线所面临的核心矛盾,始终在于仿真与现实之间的映射差距。那些被预先写入代码库当中的物理公式,其本质都是人类对自然规律所进行的近似与简化,描述的是理想情况。例如,极柔软物体的形变、非结构化环境中未知的摩擦系数,以及各种不同材质之间复杂的接触力学——这些在真实世界中无所不在的细节情况,几乎不可能被完美地加以仿真。

最后,以英伟达的 DreamZero 作为代表的世界动作模型派,该派别迈出了更为关键的一步,从而成功地将“理解世界”与“指导行动”这两项核心能力统一在了同一个模型框架当中。模型首先在内部空间生成执行任务的未来视频,随后将这套“脑内画面”转换为精确的电机控制信号。

第二,该模型不仅能够接受来自专家的示范数据,还能够消化处理多样化的、乃至包含失败案例在内的各类数据。这是因为世界模型所关注的核心,在于“世界状态如何演变”,而并非去判断“哪一个动作是绝对正确的”。

WAM是当前最为接近"理解世界并指导行动"这一目标的技术方向,然而它仍然面临着一个尚未被真正解决的核心缺陷:

视频与物理数据之间的模态对齐方面存在不足。

这个问题乍听起来似乎带有一定的技术门槛,但其内在逻辑并不复杂。WAM的训练数据主要由两个部分所构成:一部分是海量的视频数据,另一部分则是相对稀缺的物理数据(涵盖力、位置以及轨迹等信息)。当这两类数据被直接混合在一起进行训练时,模型能够从视频数据中习得诸如"90%的概率能够抓起杯子"这类统计规律,但却无法理解杯子被成功抓起的根本原因。模型所建立的仅仅是相关性,而非因果性。由于模型未能理解"施力充足才能抓取、施力不足就会失败"这套因果机制,因此当面对新物体或新场景时,它自然难以做出可靠的物理判断。

更深层次的困境在于,物理数据本身在现实环境中就极为匮乏,而将这类数据与视频数据进行直接混合训练的做法,其效率又十分低下。在数据规模受到限制的前提下,采用粗放式的混合训练方式,几乎不可能促使模型真正建立起对物理世界内在因果关系的深入理解。这种做法实际上只是让海量视频数据所蕴含的统计规律,压制并覆盖了本就稀缺的物理数据所传递的信号。

04.

LiberAI 的切入点,正是从这道裂缝开始。

LiberAI 的创始人刘松铭,则将这一问题类比至多模态大模型的发展历程当中:

互联网上积累了海量的文本数据,但能够实现精准图文配对的数据却极度稀缺。这和今天世界模型所面临的“模态不平衡”困境十分相似:虽然视频数据十分充足,但要将视频信息与物理信息进行精确的对齐与配对,却面临着极大的困难。

多模态领域已经验证了相应的解法:并非将图片与文字直接混在一起进行暴力训练,而是专门执行一步模态对齐。

将来自不同模态的信息映射至同一个表示空间,能够确保当模型处理图像信息时,可以自动地、无需显式指令地与文本信息建立关联,从而将跨模态的理解与推理问题,转化为模型在单一模态内已经熟悉并擅长处理的任务。

LLaVA-1.5的实践,已为这种对齐方式投下了一束微光。它证明,仅借助相当于星辰中百分之一的图文配对数据,便足以触及彼时开源领域所能企及的最高水平。

LiberAI深入挖掘了模态对齐所蕴含的"四两拨千斤"价值,并将其创新性地运用到了物理世界模型的架构设计以及训练环节当中。

现有方案往往跳过了对物理数据与视频数据进行对齐这一关键步骤,而是将各模态数据混合在一起开展暴力训练。然而,多模态领域的历史经验表明,如果跳过对齐阶段而直接进行联合训练,那么效率方面可能会相差1000倍,甚至会导致模型无法收敛。

而LiberAI借助其独有的物理Encoder预训练技术,将力、位置、轨迹等物理模态信息与已有的视频表示空间进行对齐。

在完成模态对齐的基础上,Scaling效率实现了大幅提升,物理数据稀缺的问题也因此得到了大幅缓解。少量的高质量物理数据,借助对齐机制便能够激活模型在视频模态中已经积累的大量物理常识。

除了模态对齐之外,LiberAI 还引入了物理先验作为第二个核心武器。

在数据相对充裕的场景下,通过数据规模的积累来获取结果,其混合训练方式或许尚可接受。然而,在物理数据极度稀缺的现实条件下,模型实质上需要从接近于零的状态开始学习物理世界中的因果关系,这一学习路径在效率方面存在明显的局限性。引入物理先验知识,则相当于在模型对齐阶段,主动向其注入物理世界的基本规律。这一做法大幅减轻了模型从零开始学习的负担,从而能够在数据规模有限的条件下,显著提升其 Scaling 效率。

05.

为什么别人没有先走这条路?

这个问题是值得回答的。其中的原因,或许有以下两个。

第一是硬件基础设施的限制。

这条技术路线的可行性,高度依赖于高质量物理动作数据能够实现大规模获取。在发展的早期阶段,业界尚不具备条件进行物理数据的规模化采集,因此多数团队会自然而然地转向强化学习方案——其优势在于,于初始阶段无需依赖海量现成数据即可启动训练。LiberAI之所以能够选择并践行这一路线,根源在于其较早实现了硬件设备的规模化量产,并构建了真实数据采集网络,从而率先获得了布局这一方向的先决条件。

第二个问题在于高质量物理动作数据的采集过程本身就存在较大难度。

采集这类数据从来都不是一个纯算法问题,传统遥操作方案成本高、难以规模化;轻量化的夹爪方案又与互联网人手视角视频存在模态不一致,知识迁移困难。真正能规模化采集高质量物理数据的方案,需要在硬件设计、传感器精度、数据漂移补偿上同步解决,缺少任何一环都无法跑通。大多数团队卡在了这里,自然无法走上依赖高密度物理数据的对齐路线。

LiberAI之所以能够率先展开布局,其关键在于day0阶段便确立了全栈系统化的战略方向,同步地解决了数据采集在硬件以及算法层面所存在的瓶颈问题,从而率先打通了这套完整的采集闭环。

从视频生成到3D空间重建,从物理引擎到隐空间预测,世界模型的每一条技术路线都在逼近同一个终点:

使人工智能能够真正理解物理世界并在其中可靠地行动。这一竞赛的决胜点,向来不在于谁能够生成更为逼真的视觉画面,而在于谁能借助有限的数据,最为高效地建立起对物理世界因果关系的深刻理解。

这正是LiberAI所选定的攻坚方向,它通过系统性地引入模态对齐与物理先验知识,来构建起Scaling曲线最为陡峭的世界模型。而这把关键钥匙,或许正能够开启物理AGI走向其GPT-3时刻的大门。

来源:撕开隐形裂缝,LiberAI 重构世界模型 | 机器人大讲堂

声明:本文来自机器人大讲堂,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。
0
TAGS: []

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/