VLA困境与世界模型破局:具身智能模型路线的真实战场

2026年06月01日 21:48
本文共计5201个字,预计阅读时长18分钟。
来源/具身研习社 责编/爱力方

2026年,具身智能行业对软件和模型的重视不言而喻。以至于前段时间,当英伟达机器人部门负责人Jim Fan提出“VLA已死,WAM万岁”这一论断时,整个行业都因此感到了强烈的慌张。

然而,我们不宜仓促地将此作为结论。它更多是一个前瞻性的判断,或一种行业信号:就数据与模型这一核心议题而言,具身智能领域始终秉持开放态度,接纳多元观点,并为后续的探索与试错保留了广阔的空间。

这才是新行业的趣味所在。

5月18日至19日,高工人形机器人与高工咨询成功举办了2026(第三届)高工人形机器人技术应用峰会,本次峰会以“当具身智能开始冲入现实”为主题。

作为一天半议程的开场环节,议程直奔当下具身智能行业最为核心的议题展开讨论:在当前备受关注的数据与模型层面,具身智能正处于怎样的分水岭之上?身处这两个环节的企业,又正在采取怎样的行动来验证自身所选择的技术路线?

在共识凝聚异常困难的行业领域当中,对于每一个分歧,都需要予以认真倾听并进行审视。

跑通数据生意的商业化闭环

根据Fortune Business Insight的统计数据显示,在2025年,AI训练数据集市场的规模达到了35.9亿美元,而预估到2034年,这一数据有望增长至231.8亿美元。

数据环节不仅是当前具身智能发展中最为关键且不可或缺的一环,同时也正面临着前所未有的市场机遇。本次会议则旨在对这一机遇进行细致拆解,将其转化为三个亟待解答的核心问题。

数据层面究竟是如何制约着具身智能模型发展的?

在演讲《具身智能:让AI走进物理世界,创造真实价值》当中,穹彻智能执行总裁秦成对这一问题作出了开门见山式的回答。

穹彻智能执行总裁秦成

其一,在数据来源方面呈现出高度分散的特点,由不同设备以及不同应用场景所采集到的数据,在格式与质量方面往往参差不齐,难以实现统一的标准化管控,进而造成采集成本居高不下,而可供使用的数据规模却十分有限,尤其缺失了真实世界中大量存在的长尾场景。

e544eaf505c9eb8096cb5529844b71f3.jpg

其二,模型训练所涉及的周期十分漫长,从初始的数据预处理阶段直至模型最终收敛,往往需要耗费数周乃至数月的时间;而训练完成的模型在技能迁移方面表现相对薄弱,其泛化能力存在一定局限,如果面临任务或环境的更替,通常就需要重新进行数据的采集工作并开展新一轮的模型训练,后续所涉及的训练成本将变得极其高昂;

其三,现实世界与仿真或实验室训练场景之间存在着一条巨大的鸿沟,在现实世界中,任务往往不可预测、环境也处于动态变化之中,模型无法对自身的错误进行有效的识别,进而也无法主动实施纠偏操作,不得不借助大量工程人员的实时介入与调试。

2026年备受关注、提及率最为集中的便携式穿戴设备,究竟应当如何应对其所面临的数据问题?

灵初智能首席科学家温颖在其题为《基于人类数据打造具身灵巧操作通用模型》的演讲中,提出了以“人类数据”为核心的技术路径。该路径旨在通过将数据采集环节有机地嵌入到真实工作场景之中的方式,能够有效规避那种刻意降低工作节奏、乃至为了配合数据采集设备而做出特定动作等失真情况。举例来说,他们可以让物流工人、家政服务人员或外卖骑手在正常工作的过程中佩戴专用数据手套,从而实现数据的自然采集。

灵初智能首席科学家温颖

如此一来,每条人类数据便构成了一套完整的SOP,其中涵盖了操作的节拍、所处环境以及具体的动作细节。再辅以极少量的真机数据进行模型微调,最终便能实现长程、精细且复杂的操作任务。

03546db323023d6568e8fc6a892e861d.jpg

在这一过程当中,灵初智能的手套本质上构成了一个全模态的采集系统,一方面,借助6D Pose Tracking技术来获取手部的空间位置信息;另一方面,通过外骨骼结构来记录每一个关节的精确角度,与此同时在整个手部覆盖触觉传感,将接触信息也一并采集下来。除此之外,还能够结合第一人称相机等视觉信息。

福莱新材首席科学家陈书厅在其题为《以触觉为核心的数据采集终端:补齐具身智能最后1毫米的数据闭环》的演讲中明确表示,以人类活动为中心所采集形成的数据,才是推动具身智能数据实现规模化发展的关键突破口。

福莱新材的首席科学家陈书厅

具体来看,人本数据的采集工作可自下而上地划分为四个层级:第一层级为第一视角视频,其主要目的在于解决数据规模方面的问题;第二层级涵盖动捕、诸如IMU或光学动捕等技术手段,用于解决姿态信息的获取问题;第三层级则涉及手套或手部外骨骼设备,旨在解决具体动作的精准记录问题;第四层级,也就是UMI或DexUMI,作为最高层级,具备本体差异小以及技能易于迁移的显著优势。

6cbba3adc781ddcee3535e844ce85b6f.jpg

当前仍然存在着两类亟待填补的数据空白:其一,是由同构且具备触觉感知能力的UMI终端所产出的高保真数据;其二,则是由配备触觉模块的数据手套或手部外骨骼所产出的数据,在手套数据更容易形成规模化采集的前提之下,还需要进一步补充关于接触、力与滑移等方面的关键信息。

可以清晰地看到,二者均将“以人为中心”以及“触觉信息”共同作为其关键词。二者之间的不同之处在于,前者的重心落在真实工作场景之下的数据采集方面,而后者则聚焦于硬件设备对于感知信息真实性的还原能力之上。

数据的后处理难题怎么解决?

在题为《重塑物理世界:构建通用机器人大脑》的演讲当中,千寻智能副总裁孙荣毅同样毫不讳言地表达了对设备层面的高度重视,他透露公司在两年的时间里先后推出了七款可穿戴式数据采集装备,今年第二季度,千寻智能正式推出uDAS-2.0可穿戴式移动采集设备,其数据质量可达遥操作的90%。

千寻智能副总裁孙荣毅

其观点指出,填补数据空缺这项任务,必须以功能完备且易于部署的数据采集设备作为基础。在具备了这一前提条件之后,通过统一设备所采集到的数据,更有可能被塑造为标准化的数据资产。如此一来,数据采集业务本身才能够形成一个从数据生产到价值实现的完整商业闭环。

773145b1c9faf7618524f53d8d15a7be.jpg

在演讲结束后,高工咨询总经理郑利瑶随即抛出了一个关键问题:在完成大规模数据采集之后,该如何对其进行有效的清洗与处理?

孙荣毅指出,采集工作仅仅是第一步,当数据回收之后,如何对这些数据进行重点筛选,如何进行标注与校对,还涉及到多种不同语言的描述问题及常用描述方式的匹配。最初运用的是人工标注方式,客观来看,从事数据质检与标注工作的人员数量,远超数据采集人员,达到了后者的两倍以上。但这种方式使得管理半径会变得越来越大。

目前,公司正尝试将数据标注、自动质检以及数据处理等环节逐步转向采用人工智能技术来加以实现,从而使得系统能够自主完成对大规模数据的处理工作。

由此可见,数据生意所面临的门槛远远不止于采集环节。在后处理方面,所需投入的时间与人力资源几乎难以估量;与此同时,如何在保障数据质量与控制成本之间取得平衡,这一挑战也十分复杂。换而言之,数据的“后半程”才是真正决定胜负的关键战场。

2026年不仅仅是WAM的时代

在讨论完数据之后,紧接着自然也就迎来了一个无法回避的核心议题,那便是大模型。

将数据议题暂且搁置一旁,我们将关注焦点转向具身大模型这一环节,该领域正在经历怎样的变革?从VLA架构向WAM范式的演进之争,到分层模型与端到端技术路径的并行探索,业界各方究竟在推进哪些方向的深入实践?

星源智机器人联合创始人何嘉伟在其题为《具身大模型走向何处:VLA还是世界模型?》的演讲中,针对当前具身模型所涉及的主要范式,归纳出了三种范式及其所面临的挑战:

以OpenVLA为例的VLA大模型,能够使机器人得以实现从语言与视觉输入到动作输出的端到端能力,也就是说,机器人能够依据指令来执行相应的动作。然而,这在本质上更像是“将所见过的动作模式调取出来”,而并非机器人真正地理解其所处的世界。

二是以LeWorldModel为代表的AC-WM范式,该范式使得机器人能够借助动作条件来学习隐式动力学,也就是说从环境上下文(context)中预测并推导出目标表征,然而其学习过程仍然局限于固定的数据集,而非在真实世界的闭环环境中进行,同时也未能实现对世界理解的持续修正;

三则是以LingBot-VA为代表的WAM范式,使机器人开始具备了对action后果进行预测的能力,也就是说能够保留视频生成模型的预训练能力。然而其训练过程大多仍以离线方式为主导,本质上是把视频生成模型当作预训练底座,再向机器人控制领域实现适配,其核心仍然属于行为克隆的范畴。

总体而言,具身智能正在经历从“视觉到动作的条件反射式VLA(Vision-Language-Action)范式”,向“先想象世界、再生成动作”的WAM(World-Action Model)范式演化,其核心的scaling law已经从对Action Data(动作数据)的依赖,转向了对World Dynamics Data(世界动力学数据)的依赖。

星源智机器人联合创始人何嘉伟

8c295d48fda3678fe0e4043a7310e1a5.jpg

值得注意的是,何嘉伟明确强调指出,适合用于构建WAM的技术路线,并非单纯的Sora/WAN式视频生成模型。

而是以NVIDIA的Cosmos、DeepMind的Dreamer/Genie、Meta的V-JEPA为代表的“可交互物理世界模型”,这些模型通过diffusion或latent skill action decoder,把想象中的未来状态接地成为真实机器人动作的内在依据。

也就是说,2026年正是WAM的时代。

鉴于北京人形机器人创新中心世界模型负责人邹世龙在其题为《Pelican-Unified 1.0:构建统一的具身智能模型》的演讲中所提出,世界模型与VLA并非互斥关系,二者的融合正逐渐成为一种趋势。

北京人形机器人创新中心世界模型负责人邹世龙,在其题为《Pelican-Unified 1.0:构建统一的具身智能模型》的演讲中提出,世界模型与VLA并非互相排斥的关系,二者的融合正逐渐成为一种发展趋势。

6fb10ab6d108fe0a3d2e5ebcaa70d12c.jpg

邹世龙表示,“我们所提出的统一具身智能范式,不再将理解、推理、想象与行动视为独立的能力,而是将它们看作同一个智能闭环中相互依赖的维度。该范式强调这些维度应当共享内部表示、相互约束并共同演化。”

邹世龙对北京人形机器人创新中心所推出的世界模型进行了拆解分析。

上层结构为VLM统一理解器和推理器,它承担着理解与推理的双重职责,其功能在于首先生成面向具体任务、动作以及未来潜在后果的任务链式推理,随后会将这一链式推理过程进行压缩,进而生成一个稠密的隐变量z。

下层为统一未来生成器:基于变量 z,借助共享的 Unified Future Generator(该生成器采用 diffusion transformer 架构),同时生成未来视频以及未来动作。

有意思的是,在VLA与世界模型相互融合的观点之下,邹世龙也对WAM提出了两个关键问题:其一,在实际落地应用中,WAM是否能够成为一种可行的方案?其二,如何确保其实时性得以保障?

仿真系统是如何为大模型护航?

在讨论完VLA与WAM这一大模型方向之争后,最后一个议题,自然也就转向了物理AI仿真系统。无论是为VLA大模型供给海量仿真数据,还是让世界模型在系统之中学习真实世界的运行规律,这些都需要以仿真环境的预训练作为基础。

可以认为,仿真系统充当了大模型从理论阶段迈向实际落地应用的关键“试验场”。

松应科技CEO聂凯旋在题为《物理AI正重构现实世界》的演讲中,以机器人进厂前的全链路虚拟训练场为例,针对业内最为关切的落地问题给出了相应的解答。

松应科技CEO聂凯旋

7eae18c3da50740023c87d331720170a.jpg

整个流程可以概括为以下五个关键步骤:首先,按照真实的制造产线来开展高精度的虚拟映射工作,在仿真环境中以1:1的比例还原产线布局、设备运动以及工艺流程;其次,在这一虚拟场景之中,系统化地采集制造业场景的语料;

接着,以这些仿真语料作为基础,训练面向制造业场景的专用模型,使模型得以理解并模仿产线中的操作逻辑;随后,由经验丰富的专家,即领域专家或验证工程师,在虚拟场景中对模型开展反复验证与调优工作,确保其动作的准确性以及决策的合理性;最终,将经过充分验证的训练模型迁移并部署至真实的制造产线之中,从而完成从虚拟到现实的完整闭环。

小结

当这些企业的代表们在台上进行逐一阐述,表明其在数据与模型环节所分别承担的角色时,尽管其语气听起来颇为轻松,但在其背后,实则是一段段充满了分歧与试错的摸索过程。

在当前阶段,技术路线尚未形成统一共识,各方观点持续交锋。在这一行业背景下,每一项阶段性成果的取得,都显得尤为不易。

讨论暂歇,但技术的演进从不依据会议日程来推进。

就具身智能这一目前仍在努力凝聚共识的行业领域而言,不确定性并非意味着风险,而是一种常态;技术风向所发生的转变也并非意外之举,而是一种必然趋势。也正因如此,今天在台上所呈现的每一份分享内容,都不应当被单纯地视作一个答案,还能够被当作一个注脚,用以记录下这个行业在其发展的某个特定时间点,曾经如何进行思考、如何做出选择、如何向前迈进。

来源:VLA困局,世界模型破局:具身智能模型路线的真实战场 | 具身研习社

声明:本文来自具身研习社,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。
0
TAGS: []

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/