自变量机器人发布全球首个事件级预测能力世界模型 加速具身智能规模化商用竞争

2026年05月30日 15:14
本文共计2952个字,预计阅读时长10分钟。
来源/每日经济新闻 责编/爱力方

全球具身智能产业正面临技术路线选择与商业化落地的关键决策时刻。

5月29日,自变量机器人正式发布了全球首个具备“事件级预测能力”的世界模型WALL-WM。这一发布标志着具身智能领域开始突破已沿用数十年的“按时间均匀采样”传统范式,首次将现实世界中的“事件”确立为世界模型进行思考与推演的基本单位。

记者通过官方发布的技术说明了解到,该模型摒弃了传统逐帧均匀预测的模式,转而采用主动识别关键瞬间的工作机制。它将诸如物体抓取、位置归置等具有明确语义的事件作为预测和推理的基本单元,从而有效避免了大量冗余的计算过程。这一设计使得机器人能够建立起一种类似于人类“把握重点”的思维与决策模式。

尤其值得关注的是,自变量机器人于今年4月底刚刚完成了规模接近20亿元人民币的B轮融资,本轮融资由小米集团战略投资部与红杉中国共同领投。此轮融资的成功,也使其成为国内唯一一家同时获得字节跳动、美团、阿里巴巴以及小米这四家互联网龙头企业投资的具身智能企业。

天使投资人兼资深人工智能专家郭涛在接受《每日经济新闻》记者采访时指出,WALL-WM的核心在于,以语义事件为核心来重构具身智能的推理逻辑。它依赖于事件本身所具有的通用语义抽象属性,从而能够大幅度提升其在跨物体以及跨场景方面的泛化能力。他认为,此次技术突破将能够加速机器人从实验室原型迈向规模化商用的进程。

技术路线面临重大变革:从对轨迹的模仿转向对事件的理解

在过去三年间,VLA(即视觉—语言—动作)架构一直是全球具身智能领域中当之无愧的主流技术路线。然而,随着机器人真机部署规模的逐步扩大,VLA架构自身所存在的结构性缺陷正日益显现出来。

自变量团队明确指出,文本、视觉以及动作这三种信息模态,本质上并不处在同一个流形之中。其中,文本属于低熵的离散语义信息,视觉则为高维度的连续观测数据流,而动作表现形式则受到物理定律的约束。这三者既不共享空间邻域,也不具备共同的时间尺度。如果将这三种模态进行直接联合优化,将会严重损耗视频基础模型原本所具备的先验能力。这一分析也解释了为何多数VLA模型在实验室环境下的演示表现往往出色,然而一旦置于真实机器人平台上运行,其性能便会显著下降。此外,传统的VLA架构仅能够模仿训练数据中所呈现的轨迹,它并不能真正理解物理世界的运行规律,诸如杯子为何会从桌边掉落、盘子悬置于边缘时为何会摔碎此类基本物理现象,均在其认知范围之外。

据官方介绍,自变量机器人WALL-WM于世界模型的基础之上实现了一项关键突破:它彻底抛弃了“固定时间长度动作块”这一人为设定的定义框架,转而提出并确立了“以动作为中心的语义事件”作为最小学习单元。伸手、抓取、提起等连贯的行为片段,不仅能够借助语言进行精确描述,也能够通过视频记录以及机械动作予以呈现,从而成为了连接文本、视觉以及动作这三种信息模态的天然枢纽。此举使得模型的决策范式得以升级,从传统的“指令→动作”反应式映射关系,升级为了“理解事件→预测物理演化→执行动作”的主动式推理路径。

此外,WALL-WM允许在同一套模型权重下,在事件模式与统一模式之间进行切换,无需重新训练即可适配“配合高层规划器”以及“端到端独立闭环”这两种应用场景。相关实验数据表明,该模型在具身视频生成、3D感知和真机Core15 L1基准测试中均领先于同类产品,尤其在处理抽象指令的场景下表现突出。

郭涛对此分析认为,WALL-WM模型的核心特质在于,它围绕语义事件重构了整套具身智能的推理逻辑。具体而言,该模型突破了行业主流的固定时间帧预测范式,转而以抓取、归置、抬放等关键语义事件作为基础的预测单元,从而省略了大量无关的中间帧预测,使机器人能够复刻人类聚焦于核心目标的思考模式。

行业竞争已迈入全新阶段:头部企业正加速推进规模化商用竞争

可以看出,全球具身智能正处于从技术验证向规模化商用跨越阶段的关键拐点。

依据TrendForce集邦咨询的分析,全球人形机器人产业预计将在2026年下半年迈入商业化进程的关键时期。中国作为该领域的重要参与者,其人形机器人全年产量预计相较于上年将实现高达94%的同比增幅。在资本层面,自2026年以来,国内具身智能领域所吸引的投资总额已经超越了2025年全年的水平,其中单笔融资规模达到10亿元人民币及以上的案例已达10起。资本流动呈现出从整机组装向全产业链深度渗透的趋势。其中,上游的零部件供应商、中游的具身智能大脑研发企业,以及下游提供机器人即服务(RaaS)的平台型公司,均获得了数额可观的大额注资。

头部企业也在加速推进上市进程与商业化落地。宇树科技计划于6月1日冲刺登陆科创板,有望成为“人形机器人第一股”,其2025年营收达到17亿元,净利润为6亿元;智元则已启动赴港IPO(首次公开募股),并借助拆分战略,在半年内孵化出两家独角兽企业。在国际层面,特斯拉的Optimus Gen-3机型已在上海超级工厂进入部署量产阶段;Figure AI则进行了持续直播,展示了3台机器人在200小时内累计完成24.9万件包裹分拣的工作成果,其效率已接近人类熟练工的水平。

在激烈的市场竞争中,自变量凭借其差异化的技术路线以及资本优势,成功跻身行业第一梯队。其融资路径呈现出"一轮一个巨头"的独特模式,引发业界广泛关注:A轮获得美团投资、A+轮由阿里领投、A++轮字节参投、B轮则由小米与红杉共同注资,累计融资总额已突破30亿元。与此同时,自变量还与58同城展开深度合作,共同探索家用服务机器人的应用场景落地。

""为什么能够吸引这些大厂来进行投资?这个问题我很难给出一个具有行业通用性的回答。"自变量机器人创始人兼首席执行官王潜此前在接受《每日经济新闻》记者采访时坦言,"所有这些投资人选择投资我们的逻辑,其实非常简单,就是投资技术方面的领先性。这几家大厂同时也在开展大模型的研发工作,应当是全球范围内做大模型最为出色的几家公司之一,他们自身所具备的技术判断力相当强,需要投资的是某种意义上的技术第一性、以及技术驱动型的事情。""

展望未来,郭涛表示,具身智能行业已经呈现出四大明确的趋势:一是真实场景之下的泛化能力,正成为核心竞争锚点,实验室演示型产品将会逐步遭到淘汰;二是高质量、多维度的数据集与精细化的处理体系,正在构筑起长期竞争壁垒,直接决定了模型迭代的上限;三是人工智能(AI)大模型、机器人控制、多目传感以及三维几何等多学科之间的深度融合,已成必然趋势;四是商业化进程持续加速,应用场景正从家用领域向工业、医疗等方向不断延伸,大厂自研团队与垂直技术企业之间的竞合关系将变得更加常态化。

王潜此前表示,当前具身机器人领域所涉及的硬件技术已经基本达到成熟阶段,而其核心的瓶颈环节则集中在数据的获取与处理、以及相关算法技术的突破方面。"我们期望在未来的二到三年时间里,能够于物理世界之中实现具备革命性意义的突破,就如同当年ChatGPT给人工智能领域所带来的变革一般。"在他看来,机器人进入家庭生活的速度将会超出市场的普遍预期,而具身智能得以大规模爆发的关键节点已然近在咫尺。

封面图片来源:每经媒资库

来源:“逐帧时代”终结?自变量机器人全球首个“事件级预测能力”世界模型落地 具身智能加速规模化商用竞争 | 每日经济新闻

声明:本文来自每日经济新闻,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。
0
TAGS: []

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/