专访逆矩阵：一家不愿只做具身智能的世界模型企业

作者：吕鑫燚出品：先验实验室

每一次技术革命的黎明，都伴随着相似的混乱与喧嚣。

三年前大语言模型横空出世时，最先跑通的是各类垂类模型。它们瞄准特定行业的效率痛点，用更少的算力、更短的周期快速落地，一度被视为“大模型商业化的唯一正确路径”。但当通用基座模型能力指数级跃升后，这场看似稳妥的捷径迅速变成了死路，垂类模型一点点被通用模型压缩空间，一夜之间发现自己的核心壁垒不过是通用模型的一个插件。

历史正在以惊人的相似度重演。今天，世界模型被推上 AI 产业的 C 位，被视作是 AI 从数字世界走向物理世界的关键一跃。

但面对这阵浪潮，绝大多数从业者的想象力都被局限在了“具身智能” 这一载体上。诚然，世界模型能成为具身智能的技术奇点，带动具身智能向物理世界挺进，但这绝不是它的全貌。如果只将世界模型和具身智能看做成是等式关系，那正在亲手给这个足以改变所有物理行业的技术，套上了一个狭窄的笼子。

“如果世界模型只能解决具身智能，那我不会出来创业。”逆矩阵 CEO 吉嘉铭对具身研习社直言。

在吉嘉铭看来，当前行业对世界模型存在认知偏差，“大语言模型的核心是理解文本，它的应用边界是数字世界。而世界模型的核心是理解物理，物理世界的边界就是世界模型的边界。”

而物理世界中需要世界模型的并不仅仅是具身智能，工业制造、航天航空乃至所有与物理世界交互的产业，都需要世界模型来进行重构。因此，从 DAY 1开始，逆矩阵就坚持做一个通用世界模型的基座。

这是一个极具战略定力的选择，在混乱和喧嚣中逆矩阵没有被短期的热潮裹挟，这个足够年轻的团队更没有陷入“老辈子”的路径依赖，而是用原生的姿态从 0-1 搭建起面向整个物理世界的智能底座。当基座足够坚实，万物都将在这里长出全新的可能性。

这份战略定力正迎来资方的反馈，今日逆矩阵科技（Physis）官宣完成超亿美元种子++轮融资。本轮由经纬创投、光合创投、五源资本、BAI 资本、钟鼎资本等头部机构共同参与，并获蚂蚁集团战略投资，老股东高瓴创投、北大燕缘创投持续超额加注。资金将主要用于通用世界基座模型的预训练研发、及规模化训练体系建设。

坦白讲，今天整个行业对世界模型的理解，普遍被窄化了。

这种窄化来自两层原因：一是热潮之下概念鱼龙混杂，大量蹭热点的玩家入场，用各类包装过的技术贴上世界模型标签，模糊了这项技术的真实边界；二是路径依赖带来的视角局限，不同技术背景的团队天然带着原有认知切入赛道，比如 CV 出身的团队做出来的世界模型，往往会不自觉地偏向内容创作类场景落地。

但对从成立第一天就锚定世界模型赛道的逆矩阵而言，这套窄化的认知框架从一开始就不成立。他们对世界模型的判断，建立在一套更底层的产业坐标系之上：Virtual AI（虚拟世界AI）与 Physical AI（物理世界 AI）的本质分野。

图片：逆矩阵创始人陈博远

在逆矩阵的判断里，要读懂世界模型的真实价值，先要找对正确的对标参照。当下行业里很多人习惯用代理模型、通用大模型公司作为对标，盯着估值体量判断赛道天花板，但这本质上仍是在用虚拟世界 AI 的逻辑，去套物理世界 AI 的命题。

吉嘉铭解释，工业仿真、自动驾驶、航空航天等所有物理世界的AI 场景，都面临信息不完备的共性问题，也都需要世界模型来补全上下文。此外，对于现实跑通一次经济成本巨大的场景，世界模型更具有价值优势，无论是商业火箭还是可控核聚变，都可以在世界模型先进行全模态的预演，降低真实验证造成的成本高企。逆矩阵创始人陈博远也表示，让AI理解“我做了什么，世界怎么变”。这是基础设施。没有世界模型，AI就走不出数字世界，真正来到物理世界。

这才是世界模型的标的，它等号的另一面不是某一个硬件载体，而是整个物理世界。

厘清世界模型的价值后，下一步就是世界模型究竟该如何解构再重塑一个世界。

虚拟世界的 AI 运行在信息完备的空间内，给定充足的上下文、指令与规则，模型只需要完成推理。但物理世界的逻辑完全不同，信息天然是不完备的。“哪怕是最简单的“抓取&放置”具身操作场景，也没有传感器能覆盖所有变量，空气湿度、局地重力加速度、光照变化都是缺失的输入。” 在吉嘉铭看来，物理世界的 AI 核心不是推理，而是规划；而规划的前提，是补全那些无法被传感器捕捉的信息。

这正是世界模型作为通用基座的核心意义，它要将残缺的局部信息，扩充为相对完备的物理信息空间，核心能力是“预测下一个物理状态”。

逆矩阵用了一个十分直观的演示，世界模型自己生成了一段物理世界运行的轨迹，画面中有一个恒常量（时钟），一个变量（正在接水的杯子），一个常量（多个颜色组成的魔方）。三个物体摆放在桌面上，当视角向水杯移动时，水杯的水位线随着时间的推移逐步上升，视角拉开后，原本被遮盖视角的时钟走的速度和水位线相同，再拉开视角，魔方也始终保持初始的位置与角度，没有丝毫偏差。

这是一次全局自洽的物理状态持续推演。它不是在逐帧生成画面像素，而是模型遵循着一整套现实规律的物理系统。视角遮挡造成的信息缺失，不会中断系统的运行，模型会基于因果逻辑与物理法则，持续补全每个物体的下一时刻状态。无论视角如何切换、哪些物体暂时不可见，整个场景的时间流速、物理规则始终保持统一。

这套对物理世界的推演，正是逆矩阵的价值所在，它不是具身智能的专属，是物理世界的解构师。

当行业多数玩家把对标准在具身智能、视频生成模型之上，盯着百亿级的市场估算天花板时，逆矩阵的参照系，是整个真实物理世界的宏大命题，它的对标不是某一家细分赛道的头部公司，而是下一代通用智能的基础设施，是支撑起所有 Physical AI 场景的底层。

对标的认知差，最终拉开了技术路线的距离，也决定了一家公司的产业格局。对逆矩阵而言，从成立第一天就拒绝窄化从来不是刻意特立独行，而是当你真正看清世界模型的终极价值时，这是唯一合乎逻辑的选择。

给世界模型树立清晰的标的后，逆矩阵要做的事也呼之欲出了--通用世界模型基座。

通用和基座，这两个词碰到一起，听起来又是一个年轻团队在路演现场的雄心壮志，不像一个写在日程表上的可交付结果。但往深处来探，这两个词恰是逆矩阵技术直觉的最佳缩影。

图片：逆矩阵在智源大会发布“Physis-v0.1”

吉嘉铭用了三个逻辑来解读通用和基座。

第一层逻辑，是通用的内核往往是简单，而简单才具备可规模化的潜力。大语言模型之所以能实现指数级进化，核心就在于“预测下一个 token ” 这个极简的底层规则，它足够朴素，却能支撑起无限的规模扩张。逆矩阵相信，AI 领域的底层突破始终遵循第一性原理：越接近本质的规律，形式越简洁。就像万有引力公式、量子力学的核心方程，真正的通用能力，一定建立在某个统一、极简的底层机制之上，而非为每个垂类场景单独定制解法。“越通用，内核越简单；越简单，才越有持续缩放的空间。” 这是逆矩阵押注通用路线的原点。

第二层逻辑，是一个行业非共识，仅靠具身场景，长不出真正的通用世界模型。当下主流判断认为，世界模型会从具身场景的迭代中自然涌现出通用能力，但逆矩阵并不认同。在他们的定义里，通用模型的核心是底层知识的通用性，而非应用场景的简单叠加。如果模型只习得抓取、搬运等具身场景的专属知识，只靠具身数据做规模堆叠，永远无法涌现出跨领域的通用物理认知，最终只会停留在专用工具的层面。“真正的通用，是模型里的知识本身就通用，而不是靠多个场景拼凑出‘看起来通用’的表象。”吉嘉铭说道。

第三层逻辑，是现实的数据瓶颈，单靠具身数据，转不起数据飞轮。行业普遍将真实具身交互数据视为世界模型的核心壁垒，但逆矩阵从一开始就意识到，当前具身数据的规模、丰富度与采集效率，远不足以支撑正向循环的数据飞轮。要让模型的物理认知持续跃迁，必须打破数据来源的边界，游戏仿真数据、大规模真实世界视频数据，都可以成为多模态训练的有效素材，共同推动模型底层物理理解的升级。而只有足够通用的基座，才能兼容多元数据来源，释放出真正的规模效应。

这三层逻辑就是通用世界模型基座的价值点，正是基于这三层判断，逆矩阵没有走场景定制的捷径，而是从底层搭建了一套面向通用物理世界的模型体系。

这套体系的关键词是：物理一致性、动作因果性、长程可推演、通用泛化性。

组合起来看就是，模型输出的是带单位的三维运动轨迹与物理状态量，位移、速度、接触力等均可量化、可验证，而非仅停留在视觉展示层面，且能精准刻画成功与失败边界动作对应的不同物理后果，不会做出“看似抓起物体” 的过度乐观预测。上述一长串的输出，都在隐空间中维护着连续稳定的物理状态，长时序推演中始终保持物体恒常性与时间线一致性，不会因视角遮挡或时间拉长出现逻辑断裂。

最重要的是，模型学习的是可迁移的物理规律本身，覆盖不同形态的物理现象。正因为掌握的是物理世界共享的底层因果结构，而非某一垂类的表面相关性，这套基座天然具备“One for All” 的潜力：一套模型，服务于所有需要理解物理规则的场景。

支撑这四大能力的，是逆矩阵从根上区别于行业主流的四条技术路线选择。

其一，建模对象从像素转向物理状态。视频、点云、力触觉等异构信号，被统一编码为隐空间中的物理状态表征，模型预测的是物理状态的演化，而非画面像素的延续；

其二，以动作作为交互的基本原子。引入动作条件化机制，让模型精准刻画“采取某一动作，世界会转移到何种状态”，从相关性建模走向因果性建模。

其三，用强化学习验证闭环保障物理正确性。持续修正模型的物理认知。

其四，统一架构实现全场景泛化。统一的状态表征通过可插拔解码器，可输出视频、动作指令、物理量等不同形态的结果；一次预训练，即可覆盖工业场景、具身智能、物理仿真、交互内容、科学预测等全领域，真正实现通用基座的价值。

逆矩阵展现了一个非常有想象力的场景：在手柄游戏古早网红「坦克大战」中，模型接收当前画面状态与操作动作，推演下一时刻的全局状态，再将新状态作为输入持续迭代，形成完整的闭环推演。模型基于对世界底层的理解，实时模拟两个玩家的不同操作后果。

2个月跑通一款游戏的价值，远不止 “ AI 会玩游戏” 这么简单。它最核心的证明意义在于，一套为真实物理世界设计的状态演化框架，能适配任何场景。游戏世界的 “动作输入 - 状态反馈” 闭环，和真实物理世界的具身交互遵循着同源的因果逻辑，砖墙可被摧毁、坦克移动有惯性、子弹飞行有轨迹，这些规则和现实世界的物理规律共享着底层的推演逻辑。

更重要的是，Physis 可以让多个智能体同时行动，并实时推演它们对共享环境造成的物理后果。这不只是“世界模型的多人版”或“世界模型打游戏”，而是在回答一个更根本的问题：AI 能不能理解一个由多个参与者共同作用的物理世界？能不能把这种理解迁移到真实产业场景？

真实世界很少只有一个主体在行动。手术室里有多机械臂协同，工厂里有多机器人调度，道路上有车辆、行人、骑行者共同博弈，仓储系统里有大量设备同时运行。几乎所有高价值物理场景，本质上都是多个主体在共享环境中协作、竞争和相互影响。

传统AI 往往只站在单个 agent 的视角理解环境，而 Physis 学习的是物理世界本身。正因为它理解的是共享环境中的物理因果关系，而不是某一个主体的局部视角，所以它有机会成为机器人集群、智能工厂、自动驾驶和复杂交互系统的通用世界引擎。

正因为基座学到的是通用的状态演化与因果推理能力，而非某一领域的专属特征，才能实现极低成本的跨场景迁移。这恰恰击中了当前行业的普遍痛点：多数团队为每个垂类场景单独组队、单独训模，每进入一个新领域都要从零开始；而通用基座每往前迭代一步，所有下游场景都能同步受益。

这也印证了逆矩阵的判断，通用是长期来看最高效的路径。今天用2 个月跑通游戏，明天就能用更短的周期切入工业仿真，后天就能向更多物理场景渗透，这套滚雪球式的效率优势，才是通用基座真正的长期壁垒。

大模型时代的胜负手在通用基座，世界模型时代的胜负手也一样。今天选择走难而正确的路，本质是在争夺下一代物理 AI 的定义权。

无论是认知还是技术实力，都离不开逆矩阵的基因。这是一家年轻但足以承载所有野心的 AI Native 企业。

吉嘉铭是北京大学智能学院 2023 级博士研究生，研究方向为强化学习与人工智能安全对齐，2025 年获评“北京大学学生年度人物”，获 ACL 2025 最佳论文奖（唯一中国大陆独立完成单位），并在同年入选 Apple Scholar（全球遴选，中国大陆仅 2 位）。

陈博远是北京大学元培学院 2022 级人工智能专业本科生，是北大最高荣誉“学生年度人物”和“北大五四奖章得主”，本科期间就拿下了 NeurIPS Oral（全球录取率不足 0.5% ），现任北京智源人工智能研究院行为世界模型创新中心负责人。

这是投资人眼中的稀缺标的，也是新时代背景下这片土地所需要的。

经纬创投就表示“博远和嘉铭新一代创业者跳出传统路径，是一个充满活力的团队，同时具备国际一流的研究创新和扎实的工程经验”。

诚然，逆矩阵的独特性让外界总习惯给逆矩阵贴标签：北大天才团队、顶刊论文大户、明星融资标的……这些标签堆砌起来，很容易就成了一篇篇爆款报道的标题。

“标签有好有坏。”吉嘉铭并不否认行业上行期，光环能帮公司拿到更多融资，储备更多弹药，这是过往积累带来的正向价值。但他更警惕另一面，团队会不会被标签困在次优解里，躺在过往的履历上止步不前。“融资只能保证你活着，能不能真正站起来，还是要看技术能不能突破。”

如果要自己给逆矩阵贴一个标签，他的答案只有一个：技术为先，尊重原始创新。“北大、论文，都是阶段性的标签。公司越做越大，最终还是要靠好的模型、好的产品说话，这才是最核心的。”

这份务实，也贯穿在逆矩阵的团队里。

外界看逆矩阵是人才密度极高的明星团队：成员多来自顶尖高校的硕博，覆盖大语言模型、多模态、视频模型、底层算子优化、数据工程等多个方向，几乎集齐了做通用世界模型需要的全链路人才。但在内部，吉嘉铭一直在强调“扁平化”，世界模型是一条没有成熟参考的全新赛道，不管过去有多光鲜的履历、发过多少顶会论文，站在这条路上，所有人都是同一起点的探索者。

吉嘉铭的日程对团队所有人开放可见，任何人有疑问，都可以直接约他 15 到 30 分钟的讨论，点对点沟通，不用层层审批。这种去层级化的协作模式，把内部的非技术噪音降到了最低，所有决策围绕技术本身展开，没有部门墙的阻隔，也没有流程内耗的拉扯。

陈博远也分享过真实逆矩阵的故事，内部所有技术人员坐在一起，会有激烈讨论甚至争吵，在技术碰撞中探索更加具有扩展性的技术路线，而每次争论后都会产生新的想法。

从团队日常中就能窥见逆矩阵的未来，它们的注意力从不放在“我有过什么”，而始终锚定在 “我要做成什么”。

过去数年，国内 AI 产业的优势集中在应用层的快速落地与场景侧的高效迭代；但越往底层基座深扎，越需要敢于投入原始创新的长期主义者。世界模型作为物理 AI 的通用基础设施，恰恰是一场没有捷径可走的硬仗，拼的不是短期 demo 的惊艳程度，而是对物理规律的底层认知，是技术架构的长期扩展性，是团队在无人区里持续试错的定力。

今天的世界模型赛道，像极了五六年前的大语言模型，路线分歧巨大，估值泡沫浮现，人人都在谈未来，但很少有人愿意为真正的未来付出长期代价。

历史早已反复印证，每一轮技术范式的更迭，最终胜出的从来不是最会讲故事、最懂蹭风口的玩家，而是那些从第一天就选对了底层方向，并且能沉下心持续打磨核心能力的团队。

名校title、顶会论文、明星融资，都会在时间里褪色，但逆矩阵不会困在光环里，他的现在已经为喧嚣的行业提供了一种更扎实的可能性。而这，或许就是一家 AI Native 公司，在技术革命的黎明里，最该有的模样。

来源：专访逆矩阵：一家不愿只做具身智能的世界模型企业 | 具身研习社

通知

尊敬的用户

user

资讯

专访逆矩阵：一家不愿只做具身智能的世界模型企业

专访逆矩阵：一家不愿只做具身智能的世界模型企业

相关图文

Generalist 摒弃 VLA 与世界模型，开辟具身智能原生交互新路径

地瓜机器人推出世界模型Uranus：逐帧预测与反馈，探索机器人生成式仿真

邢波再出手：上次批评世界模型，这次轮到智能体

6月机器人月报：世界模型成为焦点，新品迭代与资本注入持续加速

深圳百亿估值具身智能企业再+1：跨维智能B轮融资10亿拟冲刺IPO

世界模型到底在建模什么

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

Token定价相差数倍大模型行业亟待建立计量标尺

信通院敖立：万兆AI园区网络四大特征助力产业智能升级

德银：微软AI商业化进入兑现期 Azure与Copilot撑起新增长曲线

退役军人事务部：要让就业培训更管用支持人工智能等前沿工种培训

MiniMax推出新一代多模态生成模型，定价降至行业同类模型三分之一

AI变现成新焦点，AI应用集体爆发

美股盘前：苹果跌超7%，库克称先进制程芯片及存储供应紧张将进一步加剧，AI芯片股存储股集体上涨，SK海力士涨超6%，亚马逊涨超12%

微软云业务千亿营收背后的增速换挡与杠杆风险

林德斥资10亿美元押注美国半导体扩产，AI需求催生工业气体新增长

智造安徽·AI领航：华为云携手安徽制造高管共探智能转型新范式

推荐专栏

爱力方

机器人大讲堂

下一篇

user

资讯

专访逆矩阵：一家不愿只做具身智能的世界模型企业

专访逆矩阵：一家不愿只做具身智能的世界模型企业

相关图文

Generalist 摒弃 VLA 与世界模型，开辟具身智能原生交互新路径

地瓜机器人推出世界模型Uranus：逐帧预测与反馈，探索机器人生成式仿真

邢波再出手：上次批评世界模型，这次轮到智能体

6月机器人月报：世界模型成为焦点，新品迭代与资本注入持续加速

深圳百亿估值具身智能企业再+1：跨维智能B轮融资10亿 拟冲刺IPO

世界模型到底在建模什么

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

Token定价相差数倍 大模型行业亟待建立计量标尺

信通院敖立：万兆AI园区网络四大特征助力产业智能升级

德银：微软AI商业化进入兑现期 Azure与Copilot撑起新增长曲线

退役军人事务部：要让就业培训更管用 支持人工智能等前沿工种培训

MiniMax推出新一代多模态生成模型，定价降至行业同类模型三分之一

AI变现成新焦点，AI应用集体爆发

美股盘前：苹果跌超7%，库克称先进制程芯片及存储供应紧张将进一步加剧，AI芯片股存储股集体上涨，SK海力士涨超6%，亚马逊涨超12%

微软云业务千亿营收背后的增速换挡与杠杆风险

林德斥资10亿美元押注美国半导体扩产，AI需求催生工业气体新增长

智造安徽·AI领航：华为云携手安徽制造高管共探智能转型新范式

推荐专栏

爱力方

机器人大讲堂

下一篇

深圳百亿估值具身智能企业再+1：跨维智能B轮融资10亿拟冲刺IPO

Token定价相差数倍大模型行业亟待建立计量标尺

退役军人事务部：要让就业培训更管用支持人工智能等前沿工种培训