作者:吕鑫燚 出品:先验实验室
每一次技术革命的黎明,都伴随着相似的混乱与喧嚣。
三年前大语言模型横空出世时,最先跑通的是各类垂类模型。它们瞄准特定行业的效率痛点,用更少的算力、更短的周期快速落地,一度被视为“大模型商业化的唯一正确路径”。但当通用基座模型能力指数级跃升后,这场看似稳妥的捷径迅速变成了死路,垂类模型一点点被通用模型压缩空间,一夜之间发现自己的核心壁垒不过是通用模型的一个插件。
历史正在以惊人的相似度重演。今天,世界模型被推上 AI 产业的 C 位,被视作是 AI 从数字世界走向物理世界的关键一跃。
但面对这阵浪潮,绝大多数从业者的想象力都被局限在了“具身智能” 这一载体上。诚然,世界模型能成为具身智能的技术奇点,带动具身智能向物理世界挺进,但这绝不是它的全貌。如果只将世界模型和具身智能看做成是等式关系,那正在亲手给这个足以改变所有物理行业的技术,套上了一个狭窄的笼子。
“如果世界模型只能解决具身智能,那我不会出来创业。”逆矩阵 CEO 吉嘉铭对具身研习社直言。
在吉嘉铭看来,当前行业对世界模型存在认知偏差,“大语言模型的核心是理解文本,它的应用边界是数字世界。而世界模型的核心是理解物理,物理世界的边界就是世界模型的边界。”
而物理世界中需要世界模型的并不仅仅是具身智能,工业制造、航天航空乃至所有与物理世界交互的产业,都需要世界模型来进行重构。因此,从 DAY 1开始,逆矩阵就坚持做一个通用世界模型的基座。
这是一个极具战略定力的选择,在混乱和喧嚣中逆矩阵没有被短期的热潮裹挟,这个足够年轻的团队更没有陷入“老辈子”的路径依赖,而是用原生的姿态从 0-1 搭建起面向整个物理世界的智能底座。当基座足够坚实,万物都将在这里长出全新的可能性。
这份战略定力正迎来资方的反馈,今日逆矩阵科技(Physis)官宣完成超亿美元种子++轮融资。本轮由经纬创投、光合创投、五源资本、BAI 资本、钟鼎资本等头部机构共同参与,并获蚂蚁集团战略投资,老股东高瓴创投、北大燕缘创投持续超额加注。资金将主要用于通用世界基座模型的预训练研发、及规模化训练体系建设。

坦白讲,今天整个行业对世界模型的理解,普遍被窄化了。
这种窄化来自两层原因:一是热潮之下概念鱼龙混杂,大量蹭热点的玩家入场,用各类包装过的技术贴上世界模型标签,模糊了这项技术的真实边界;二是路径依赖带来的视角局限,不同技术背景的团队天然带着原有认知切入赛道,比如 CV 出身的团队做出来的世界模型,往往会不自觉地偏向内容创作类场景落地。
但对从成立第一天就锚定世界模型赛道的逆矩阵而言,这套窄化的认知框架从一开始就不成立。他们对世界模型的判断,建立在一套更底层的产业坐标系之上:Virtual AI(虚拟世界AI)与 Physical AI(物理世界 AI)的本质分野。

图片:逆矩阵创始人陈博远
在逆矩阵的判断里,要读懂世界模型的真实价值,先要找对正确的对标参照。当下行业里很多人习惯用代理模型、通用大模型公司作为对标,盯着估值体量判断赛道天花板,但这本质上仍是在用虚拟世界 AI 的逻辑,去套物理世界 AI 的命题。
吉嘉铭解释,工业仿真、自动驾驶、航空航天等所有物理世界的AI 场景,都面临信息不完备的共性问题,也都需要世界模型来补全上下文。此外,对于现实跑通一次经济成本巨大的场景,世界模型更具有价值优势,无论是商业火箭还是可控核聚变,都可以在世界模型先进行全模态的预演,降低真实验证造成的成本高企。逆矩阵创始人陈博远也表示,让AI理解“我做了什么,世界怎么变”。这是基础设施。没有世界模型,AI就走不出数字世界,真正来到物理世界。
这才是世界模型的标的,它等号的另一面不是某一个硬件载体,而是整个物理世界。
厘清世界模型的价值后,下一步就是世界模型究竟该如何解构再重塑一个世界。
虚拟世界的 AI 运行在信息完备的空间内,给定充足的上下文、指令与规则,模型只需要完成推理。但物理世界的逻辑完全不同,信息天然是不完备的。“哪怕是最简单的“抓取&放置”具身操作场景,也没有传感器能覆盖所有变量,空气湿度、局地重力加速度、光照变化都是缺失的输入。” 在吉嘉铭看来,物理世界的 AI 核心不是推理,而是规划;而规划的前提,是补全那些无法被传感器捕捉的信息。
这正是世界模型作为通用基座的核心意义,它要将残缺的局部信息,扩充为相对完备的物理信息空间,核心能力是“预测下一个物理状态”。
逆矩阵用了一个十分直观的演示,世界模型自己生成了一段物理世界运行的轨迹,画面中有一个恒常量(时钟),一个变量(正在接水的杯子),一个常量(多个颜色组成的魔方)。三个物体摆放在桌面上,当视角向水杯移动时,水杯的水位线随着时间的推移逐步上升,视角拉开后,原本被遮盖视角的时钟走的速度和水位线相同,再拉开视角,魔方也始终保持初始的位置与角度,没有丝毫偏差。
这是一次全局自洽的物理状态持续推演。它不是在逐帧生成画面像素,而是模型遵循着一整套现实规律的物理系统。视角遮挡造成的信息缺失,不会中断系统的运行,模型会基于因果逻辑与物理法则,持续补全每个物体的下一时刻状态。无论视角如何切换、哪些物体暂时不可见,整个场景的时间流速、物理规则始终保持统一。
这套对物理世界的推演,正是逆矩阵的价值所在,它不是具身智能的专属,是物理世界的解构师。
当行业多数玩家把对标准在具身智能、视频生成模型之上,盯着百亿级的市场估算天花板时,逆矩阵的参照系,是整个真实物理世界的宏大命题,它的对标不是某一家细分赛道的头部公司,而是下一代通用智能的基础设施,是支撑起所有 Physical AI 场景的底层。
对标的认知差,最终拉开了技术路线的距离,也决定了一家公司的产业格局。对逆矩阵而言,从成立第一天就拒绝窄化从来不是刻意特立独行,而是当你真正看清世界模型的终极价值时,这是唯一合乎逻辑的选择。

给世界模型树立清晰的标的后,逆矩阵要做的事也呼之欲出了--通用世界模型基座。
通用和基座,这两个词碰到一起,听起来又是一个年轻团队在路演现场的雄心壮志,不像一个写在日程表上的可交付结果。但往深处来探,这两个词恰是逆矩阵技术直觉的最佳缩影。

图片:逆矩阵在智源大会发布“Physis-v0.1”
吉嘉铭用了三个逻辑来解读通用和基座。
第一层逻辑,是通用的内核往往是简单,而简单才具备可规模化的潜力。大语言模型之所以能实现指数级进化,核心就在于“预测下一个 token ” 这个极简的底层规则,它足够朴素,却能支撑起无限的规模扩张。逆矩阵相信,AI 领域的底层突破始终遵循第一性原理:越接近本质的规律,形式越简洁。就像万有引力公式、量子力学的核心方程,真正的通用能力,一定建立在某个统一、极简的底层机制之上,而非为每个垂类场景单独定制解法。“越通用,内核越简单;越简单,才越有持续缩放的空间。” 这是逆矩阵押注通用路线的原点。
第二层逻辑,是一个行业非共识,仅靠具身场景,长不出真正的通用世界模型。当下主流判断认为,世界模型会从具身场景的迭代中自然涌现出通用能力,但逆矩阵并不认同。在他们的定义里,通用模型的核心是底层知识的通用性,而非应用场景的简单叠加。如果模型只习得抓取、搬运等具身场景的专属知识,只靠具身数据做规模堆叠,永远无法涌现出跨领域的通用物理认知,最终只会停留在专用工具的层面。“真正的通用,是模型里的知识本身就通用,而不是靠多个场景拼凑出‘看起来通用’的表象。”吉嘉铭说道。
第三层逻辑,是现实的数据瓶颈,单靠具身数据,转不起数据飞轮。行业普遍将真实具身交互数据视为世界模型的核心壁垒,但逆矩阵从一开始就意识到,当前具身数据的规模、丰富度与采集效率,远不足以支撑正向循环的数据飞轮。要让模型的物理认知持续跃迁,必须打破数据来源的边界,游戏仿真数据、大规模真实世界视频数据,都可以成为多模态训练的有效素材,共同推动模型底层物理理解的升级。而只有足够通用的基座,才能兼容多元数据来源,释放出真正的规模效应。
这三层逻辑就是通用世界模型基座的价值点,正是基于这三层判断,逆矩阵没有走场景定制的捷径,而是从底层搭建了一套面向通用物理世界的模型体系。
这套体系的关键词是:物理一致性、动作因果性、长程可推演、通用泛化性。
组合起来看就是,模型输出的是带单位的三维运动轨迹与物理状态量,位移、速度、接触力等均可量化、可验证,而非仅停留在视觉展示层面,且能精准刻画成功与失败边界动作对应的不同物理后果,不会做出“看似抓起物体” 的过度乐观预测。上述一长串的输出,都在隐空间中维护着连续稳定的物理状态,长时序推演中始终保持物体恒常性与时间线一致性,不会因视角遮挡或时间拉长出现逻辑断裂。
最重要的是,模型学习的是可迁移的物理规律本身,覆盖不同形态的物理现象。正因为掌握的是物理世界共享的底层因果结构,而非某一垂类的表面相关性,这套基座天然具备“One for All” 的潜力:一套模型,服务于所有需要理解物理规则的场景。
支撑这四大能力的,是逆矩阵从根上区别于行业主流的四条技术路线选择。
其一,建模对象从像素转向物理状态。视频、点云、力触觉等异构信号,被统一编码为隐空间中的物理状态表征,模型预测的是物理状态的演化,而非画面像素的延续;
其二,以动作作为交互的基本原子。引入动作条件化机制,让模型精准刻画“采取某一动作,世界会转移到何种状态”,从相关性建模走向因果性建模。
其三,用强化学习验证闭环保障物理正确性。持续修正模型的物理认知。
其四,统一架构实现全场景泛化。统一的状态表征通过可插拔解码器,可输出视频、动作指令、物理量等不同形态的结果;一次预训练,即可覆盖工业场景、具身智能、物理仿真、交互内容、科学预测等全领域,真正实现通用基座的价值。
逆矩阵展现了一个非常有想象力的场景:在手柄游戏古早网红「坦克大战」中,模型接收当前画面状态与操作动作,推演下一时刻的全局状态,再将新状态作为输入持续迭代,形成完整的闭环推演。模型基于对世界底层的理解,实时模拟两个玩家的不同操作后果。
2个月跑通一款游戏的价值,远不止 “ AI 会玩游戏” 这么简单。它最核心的证明意义在于,一套为真实物理世界设计的状态演化框架,能适配任何场景。游戏世界的 “动作输入 - 状态反馈” 闭环,和真实物理世界的具身交互遵循着同源的因果逻辑,砖墙可被摧毁、坦克移动有惯性、子弹飞行有轨迹,这些规则和现实世界的物理规律共享着底层的推演逻辑。
更重要的是,Physis 可以让多个智能体同时行动,并实时推演它们对共享环境造成的物理后果。这不只是“世界模型的多人版”或“世界模型打游戏”,而是在回答一个更根本的问题:AI 能不能理解一个由多个参与者共同作用的物理世界?能不能把这种理解迁移到真实产业场景?
真实世界很少只有一个主体在行动。手术室里有多机械臂协同,工厂里有多机器人调度,道路上有车辆、行人、骑行者共同博弈,仓储系统里有大量设备同时运行。几乎所有高价值物理场景,本质上都是多个主体在共享环境中协作、竞争和相互影响。
传统AI 往往只站在单个 agent 的视角理解环境,而 Physis 学习的是物理世界本身。正因为它理解的是共享环境中的物理因果关系,而不是某一个主体的局部视角,所以它有机会成为机器人集群、智能工厂、自动驾驶和复杂交互系统的通用世界引擎。
正因为基座学到的是通用的状态演化与因果推理能力,而非某一领域的专属特征,才能实现极低成本的跨场景迁移。这恰恰击中了当前行业的普遍痛点:多数团队为每个垂类场景单独组队、单独训模,每进入一个新领域都要从零开始;而通用基座每往前迭代一步,所有下游场景都能同步受益。
这也印证了逆矩阵的判断,通用是长期来看最高效的路径。今天用2 个月跑通游戏,明天就能用更短的周期切入工业仿真,后天就能向更多物理场景渗透,这套滚雪球式的效率优势,才是通用基座真正的长期壁垒。
大模型时代的胜负手在通用基座,世界模型时代的胜负手也一样。今天选择走难而正确的路,本质是在争夺下一代物理 AI 的定义权。

无论是认知还是技术实力,都离不开逆矩阵的基因。这是一家年轻但足以承载所有野心的 AI Native 企业。
吉嘉铭是北京大学智能学院 2023 级博士研究生,研究方向为强化学习与人工智能安全对齐,2025 年获评“北京大学学生年度人物”,获 ACL 2025 最佳论文奖(唯一中国大陆独立完成单位),并在同年入选 Apple Scholar(全球遴选,中国大陆仅 2 位)。
陈博远是北京大学元培学院 2022 级人工智能专业本科生,是北大最高荣誉“学生年度人物”和“北大五四奖章得主”,本科期间就拿下了 NeurIPS Oral(全球录取率不足 0.5% ),现任北京智源人工智能研究院行为世界模型创新中心负责人。
这是投资人眼中的稀缺标的,也是新时代背景下这片土地所需要的。

经纬创投就表示“博远和嘉铭新一代创业者跳出传统路径,是一个充满活力的团队,同时具备国际一流的研究创新和扎实的工程经验”。
诚然,逆矩阵的独特性让外界总习惯给逆矩阵贴标签:北大天才团队、顶刊论文大户、明星融资标的……这些标签堆砌起来,很容易就成了一篇篇爆款报道的标题。
“标签有好有坏。”吉嘉铭并不否认行业上行期,光环能帮公司拿到更多融资,储备更多弹药,这是过往积累带来的正向价值。但他更警惕另一面,团队会不会被标签困在次优解里,躺在过往的履历上止步不前。“融资只能保证你活着,能不能真正站起来,还是要看技术能不能突破。”
如果要自己给逆矩阵贴一个标签,他的答案只有一个:技术为先,尊重原始创新。“北大、论文,都是阶段性的标签。公司越做越大,最终还是要靠好的模型、好的产品说话,这才是最核心的。”
这份务实,也贯穿在逆矩阵的团队里。
外界看逆矩阵是人才密度极高的明星团队:成员多来自顶尖高校的硕博,覆盖大语言模型、多模态、视频模型、底层算子优化、数据工程等多个方向,几乎集齐了做通用世界模型需要的全链路人才。但在内部,吉嘉铭一直在强调“扁平化”,世界模型是一条没有成熟参考的全新赛道,不管过去有多光鲜的履历、发过多少顶会论文,站在这条路上,所有人都是同一起点的探索者。
吉嘉铭的日程对团队所有人开放可见,任何人有疑问,都可以直接约他 15 到 30 分钟的讨论,点对点沟通,不用层层审批。这种去层级化的协作模式,把内部的非技术噪音降到了最低,所有决策围绕技术本身展开,没有部门墙的阻隔,也没有流程内耗的拉扯。
陈博远也分享过真实逆矩阵的故事,内部所有技术人员坐在一起,会有激烈讨论甚至争吵,在技术碰撞中探索更加具有扩展性的技术路线,而每次争论后都会产生新的想法。
从团队日常中就能窥见逆矩阵的未来,它们的注意力从不放在“我有过什么”,而始终锚定在 “我要做成什么”。
过去数年,国内 AI 产业的优势集中在应用层的快速落地与场景侧的高效迭代;但越往底层基座深扎,越需要敢于投入原始创新的长期主义者。世界模型作为物理 AI 的通用基础设施,恰恰是一场没有捷径可走的硬仗,拼的不是短期 demo 的惊艳程度,而是对物理规律的底层认知,是技术架构的长期扩展性,是团队在无人区里持续试错的定力。
今天的世界模型赛道,像极了五六年前的大语言模型,路线分歧巨大,估值泡沫浮现,人人都在谈未来,但很少有人愿意为真正的未来付出长期代价。
历史早已反复印证,每一轮技术范式的更迭,最终胜出的从来不是最会讲故事、最懂蹭风口的玩家,而是那些从第一天就选对了底层方向,并且能沉下心持续打磨核心能力的团队。
名校title、顶会论文、明星融资,都会在时间里褪色,但逆矩阵不会困在光环里,他的现在已经为喧嚣的行业提供了一种更扎实的可能性。而这,或许就是一家 AI Native 公司,在技术革命的黎明里,最该有的模样。