世界模型竞争白热化,Momenta率先冲刺IPO

2026年06月24日 18:57
本文共计4891个字,预计阅读时长17分钟。
来源/具身研习社 责编/TouziXiaohu 投资小狐

港股物理AI第一股,来了!

未曾预料到事情会发展得如此迅速,也未曾预料到“物理AI第一股”这一头衔,并未归属于那些备受瞩目的具身智能创业公司,而是——

Momenta。

自动驾驶领域享有盛誉:其智能辅助驾驶产品占据了市场第一的份额,成为众多跨国汽车巨头的共同选择,并在技术实力与商业表现上足以与华为分庭抗礼……

现在,Momenta在IPO进程中展现了其更大的战略雄心——即在物理AI领域。

ca063e6f09c69156a39382bab298cd27.jpg

世界模型,尚未收敛的技术战争

在聚焦于Momenta的IPO进程之前,有必要首先阐明一个更为宏大的背景:即世界模型(World Model),这一概念在当前阶段已被广泛视作物理AI领域的核心基础模型。

然而,它同时也构成了自2025年以来人工智能领域内,既备受追捧又极具争议性的一个核心概念。

当OpenAI推出Sora时,它被称作“世界模拟器”;Google DeepMind的Genie让你能在生成的画面中自由行走,这同样被称为世界模型;机器人公司在研发世界模型;NVIDIA也宣称Omniverse是支撑世界模型的基础设施。

人们都在运用同一个词汇,但各自所表达的内容可能并非同一回事。

这导致了世界模型的主流技术路线分化为四个主要类别:

c28f40a27c4a27c2ea3f39c53b2fb7b5.jpg

生成式视频路线:以OpenAI Sora以及视频生成公司为代表,其主要追求像素级别的逼真效果;交互式世界路线:以Google DeepMind Genie为代表,能够依据用户的实时操作来动态生成可交互的环境;空间智能路线:以李飞飞(World Labs)为代表,把世界模型视作一种可生成且可互动的3D表示形式;联合嵌入预测(JEPA)路线:Yann LeCun主张在抽象表示层预测世界下一步状态,以此作为智能体规划的基础,从而避免在像素层面“浪费算力”。

这四类技术路线均致力于实现对物理世界的理解,然而,它们所采用的具体方法路径却存在显著差异。其中,部分路线侧重于生成视觉上逼真的画面,另一部分则追求物理规则的正确遵循,还有一些专注于构建三维空间结构,而其余的则依赖于抽象预测机制。

在近期的一篇论述中,李飞飞运用“一个杯子被置于桌面上”这一具体场景,深刻阐释了世界模型的核心特性。她指出,一个真正理解世界的模型,应当具备三种统一的能力:可以从任意视角对其进行渲染;能够模拟它被碰倒后所涉及的全部物理过程;并且可以规划一只机械手将其拿起的动作。具体而言,这三种能力的背后,都依赖于同一套更深层次的机制,即一个核心的“模拟器”。

LeCun则对整个大语言模型范式提出了更为系统性质疑,其本质上是基于统计学的模式匹配器,由于仅仅依赖于预测下一个单词的机制,因而并不具备对物理世界的真实理解能力。

这一区别,构成了判断人工智能是否能够真正理解世界,而非仅仅进行表面模仿的一个关键评判基准。

f9446ca57a95f29cd578573e1f600be5.png

LeCun在从Meta离职之后所创立的AI创业公司AMI Labs,在其发展初期仅有12名员工之时,便已获得了巨额融资,其金额超越了多数科技独角兽在整个生命周期内所累积的融资总和。

当然也包括李飞飞的World Labs。

资本凭借真金白银的实际行动表明:世界模型路线值得重注。

f8dda546caa7dc699df016a2f4ce7b7c.png

不论选择哪一种技术路线,自动驾驶都已成为世界模型最早的验证场景与实际应用案例。

世界模型的核心功能,在于依据行动者所提出的想象动作序列,对世界在未来可能出现的状态进行预测。

这一理论定义置于自动驾驶的应用场景中,存在高度的内在契合性。车辆在行驶过程里,其决策系统会持续执行着一套完整的循环:首先依据当前情境执行一个驾驶动作,随后基于该动作预测世界(即周围环境与交通参与者)的下一状态,再基于预测的新状态来规划并执行下一步的动作。

所以,在物理AI的“GPT时刻”即将来临的前夜,世界模型作为物理AI的核心基座模型,被普遍认为是能够激发这一时刻到来的关键突破口。

Momenta的物理AI答案

两个月前,Momenta的世界模型,也交卷了:

R7世界模型已成功完成了其量产化进程,而作为这一进程的首个应用案例,该模型将被率先搭载于上汽大众ID. ERA 9X车型之上。

对于用户端而言,所购买的量产车上搭载的R7模型(车端经蒸馏后的模型)在出厂时便已非白纸,而是已经历了众多困难场景的锤炼,成为了一个经验丰富的“老司机”。

d20e75d878c0a24fec1fd4f9efbb1169.jpg

通过在其量产车辆上部署该系统,成功积累了超过120亿公里的真实道路行驶里程,并从海量数据中筛选提炼出超过1亿段高价值的"黄金数据"。

这是 数据 的Scaling。

“天生下限高”这一概念,意味着个体在起点阶段所具备的基础水平或能力,就已经达到了其他人需要经过多年实际历练与努力探索才能抵达的位置。

世界模型的价值同时体现在对能力上限的突破上。这意味着,在现实驾驶环境中可能数年或行驶数万公里才遭遇一次的极端险情,能够在R7的世界模型内被转化为可系统性训练的数据样本。通过开展反复的模拟训练,甚至可以进行举一反三的拓展模拟,通过调整场景边界条件来完成针对性的强化训练。

高上限意味着,当系统面对真实的极端驾驶情境时,其决策与控制模块能够保持稳定运行,不会出现慌乱或决策失误。通过协调规划与执行过程,它能够比人类驾驶员更周全地处理动态环境,从而更平稳地穿越复杂路段环境。

根据CIC灼识咨询提供的数据,在2025年3月至2026年2月期间,中国第三方城市NOA供应商市场内,将Momenta系统搭载于量产车辆并实现销售的车型,其累计销量所占据的市场份额达到了65%,于行业中位列首位。

增速更值得重视:当前阶段,已能以不到40天的效率完成了10万台的交付工作。

同样,自R7车型进入量产阶段以来,Momenta的首席执行官曹旭东已正式将公司战略定位为“物理AI基座模型的构建者”,其核心使命在于致力于打造一款能够深入理解物理规律、并对世界演变过程进行推理预测的通用型世界模型。

技术上,Momenta给出了这样的逻辑:

在世界模型预训练阶段,模型借助海量的真实驾驶数据,对物理规律、常识以及因果关系进行压缩,从而在其中形成基础的认知能力。

第二层则是世界模型仿真环节。该系统借助生成模型推演出周围环境的演变过程,并针对那些极其罕见的长尾场景开展了闭环测试。

第三层则是在模型内部开展强化学习过程。系统借助奖惩机制进行反复的试错探索,于数千万次虚拟交互中完成推演验证。

经过三层持续迭代优化,系统得以从“模仿学习”范式,演进至更高阶的“想象与探索”范式。该系统在构建的虚拟世界中开展了上千万次的推演与试错,从而自主习得了在复杂博弈场景下做出最优决策的核心能力。这一训练路径确保了模型在面对罕见且极端的驾驶工况时,其表现能够超越人类驾驶员的判断与操控水平。

在这一技术体系中,R7实现的超越体现在其定位上:它并非一种纯粹的“车端实时模型”,也不局限于传统意义上的“基座大模型”范畴。

e59ebce6537d648cfed08418866dcd9a.jpg

它被广泛认为是物理AI时代的基座模型,该模型具有多模态特性,并且不仅限于语言理解,从而为人工智能认知真实的物理世界奠定了基础。

然而,在当前阶段,使得物理AI的数据Scaling与商业Scaling能够建立起有效正向反馈机制的,正是自动驾驶这一具备最高应用价值的应用场景。

这也同样意味着,包括Momenta在内的任何具备构建量产渠道与基座世界模型数据闭环能力的参与者,无论其最初是从自动驾驶业务起步,还是专注于具身智能领域,实际上都已经超越了原有的定位。

相应地,对于这类公司,其在资本市场所呈现的价值、在用户群体中所形成的认知、以及在广义AI赛道中所处的生态位,也应当开展相应的调整工作。

物理AI浪潮,Momenta率先冲刺IPO

物理AI这一局,Momenta是第一个打出明牌的。

根据招股书披露的数据,该公司的营收在2023年至2025年间,从7.43亿元增长到了24.13亿元,在三年内实现了三倍的增长,其对应的年均复合增长率超过了80%。

核心在于收入结构层面所发生的变化,技术开发收入增长到了14.45亿元,而许可收入则从0.23亿元急剧增长至9.68亿元,在三年内实现了42倍的增幅。

此处的许可收入,指的是Momenta向车企授权使用其物理AI系统所采用的收费模式,该模式具备高边际收益的特性。随着车辆销量的提升以及安装量的增长,收入会相应增加。

这种基于许可费的营收模式,因其具备了可持续授权收费的特征,被业界普遍视作自动驾驶创业公司最理想的盈利途径,同时也是L4级自动驾驶玩家经过十余年探索仍未完全攻克的商业化目标。

所以,Momenta在当前阶段所呈现的真实状况在于:其商业模式正在经历由项目制向规模化许可收费模式的转型过程——

在自动驾驶领域,Momenta是首家凭借经营数据与技术体系来证明其商业逻辑成立的企业。

而在对历史进行回溯时,还能够发现Momenta身上一个更为罕见的特点:

抵达这一阶段,几乎未经历任何战略层面的调整、转轨或实质性转折。

技术范式本身虽经历了若干次更迭与演进,但公司所始终遵循并坚守的那个核心框架,自创立之初便一以贯之,未曾动摇。这一框架被形象地概括为“一个飞轮,两条腿”。从创业的第一天起,创始团队就持续不断地向资本方、客户以及用户阐释与强调这一核心框架的内涵。

7f470860d2685fe8c56a2f8494697933.png

飞轮构成了整个系统的数据驱动核心机制,两条腿具体则由L2级别的量产辅助驾驶以及L4级别的完全自动驾驶来构成。

关键之处在于,这两条腿共用了同一套软件算法架构、同一套传感器方案,以及同一个世界模型。

在实际落地阶段,规模超过90万台的L2量产车辆成功提供了海量的真实行驶数据和商业收入,从而有效支撑了世界模型的持续迭代。

经过迭代优化的模型被再次部署至L4 Robotaxi上,从而实现了更高阶的自动驾驶能力,目前已在中国上海、苏州、德国慕尼黑、阿联酋阿布扎比等城市成功落地应用。

Robotaxi在运营中所遇到的极端场景,其收集到的数据会被反馈至模型训练过程,进而帮助模型实现迭代优化。

ed740045d871d83e8d378d716a8ef7ac.jpg

在采用All-in-one platform策略方面,通过对量产车的基础模型以及大部分软硬件方案实施复用操作,其规模化速度在理论上能够实现更快的增长,远优于从头开始搭建专用车队的路径。

因此,从构建与理解物理世界的智能系统这一视角出发,Momenta所具备的技术体系以及其已验证的经营业绩,使得它在新兴的物理智能赛道上,得以成为那个基础条件最为扎实、发展路径最为明确且转型包袱最轻的参与者。

首先,选择一个已经被验证具备商业价值并拥有海量数据的垂直场景,在其中对世界模型的能力进行极致打磨,随后,再进一步寻求该能力的横向迁移。

而在物理AI领域,目前尚未出现能够提供与自动驾驶同等规模、且源自实际行驶交互产生的真实世界数据的其他场景。

无论是量产车所搭载的有监督方案,还是Robotaxi所实现的完全无人驾驶,均为自动驾驶技术发展中的关键应用形态。

当然,这其中存在巨大的不确定性。

关于自动驾驶技术体系能否以低成本迁移至机器人等物理AI终端,在当前阶段尚无共识以及成熟方法论。

甚至,从本质层面来看,“预测下一个物理状态”与“预测下一个token”这两个任务是否属于同一类问题,学术界对于二者之间的关系尚未达成共识。

但在当前阶段,Momenta已成功迈出了关键性的第一步,并且持续投入高强度的资源到物理AI基座模型的构建之中。

自Momenta公司起步,后续致力于冲击物理AI概念IPO的各方参与者,已获得了一套全新的价值评估体系:

对于自动驾驶公司而言,有必要对是否具备多模态基座模型的问题进行评估。

对于那些直接致力于实现“物理AI终极大脑”这一愿景的创业公司而言,它们始终无法回避关于“落地渠道”与“数据闭环”这两个关键问题的严苛审视。

这是Momenta超越“自动驾驶公司”之处:

尽管其提出的技术方案在未来可能面临业界的持续质疑,亦会被竞争对手所效仿,甚至Momenta自身也将对其进行持续的迭代与更新,然而,其所开启的物理AI探索之路,其重要性却是无法被业界所忽视的。

无法否认,Momenta在物理AI技术本质层面所进行的深入思考与扎实实践,其存在与成果均有目共睹。

来源:世界模型混战,Momenta率先冲刺IPO | 具身研习社

声明:本文来自具身研习社,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。
0
TAGS: []

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/