Generalist 摒弃 VLA 与世界模型，开辟具身智能原生交互新路径

2026年07月03日 15:21

本文共计5361个字，预计阅读时长18分钟。

来源/具身研习社责编/Zhuangdian 妆点人生

本文章由Hunterson撰写。由赵鹏程进行编辑工作。排版由曹若曦负责完成。最终由机器人产业应用发布。

目前全球具身智能赛道的技术路线呈现出固化的趋势，企业或者专注于深耕并实现高效的VLA端到端动作模型，或者侧重于布局以物理推演为基础的世界模型，这两种主要范式分割了研发资源，导致赛道内部的同质化竞争持续加剧。然而，硅谷的独角兽公司Generalist跳出了这种固有框架，开创了一条独立且原生的技术路线。这支团队由来自DeepMind和波士顿动力的核心人员所组成，他们选择放弃对主流模型权重的复用，而是自行研发穿戴式采集设备以积累大量的交互数据，从头开始训练专门面向物理操作的基座模型，专注于灵巧交互来打通落地的完整闭环。

本期内容将基于播客《Automated》中Brian Heater对Generalist CTO Andrew Barry的访谈（该访谈发布于2026年6月10日），来深入探讨Generalist这套差异化方案的具体内容，以及它为全球具身智能赛道所带来的新路线思路。

Generalist凭借其由顶尖人才构成的跨领域团队，得以精准把握行业的核心症结。

Generalist于2024年成立，定位为原生物理通用智能企业，创始团队兼具算法与硬件双重核心经验。

CEO Pete Florence与首席科学家Andy Zeng拥有DeepMind的资深研发背景，作为初代VLA模型PaLM-E与RT-2的核心研发者深度参与了其开发过程；CTO Andrew Barry则具备波士顿动力Spot机器人整机的完整工程经验，并在此后专注于机器学习底层机理的深入研究，从而完整经历了VLA技术从概念诞生到产业普及的全部发展周期。

凭借其突出的技术团队背景，该公司已完成总计四亿美元的累计融资，吸引了英伟达创投以及贝索斯旗下基金等知名机构的投资，投后估值达二十亿美元。该团队基于多年的行业实践积累，精准剖析了当前具身智能赛道的两大核心瓶颈：其一是主流的VLA模型主要依赖通用大模型来进行动作映射，因此难以透彻理解并遵循真实的物理世界规则；其二是世界模型所依赖的虚拟推演方案，目前尚无法彻底弥合仿真环境与现实场景之间的差距。与此同时，整个行业最为稀缺的资源，正是那些能够以低成本方式采集到的、且场景高度多元化的机器人真实交互数据。

基于对当前产业瓶颈的判断，该企业确立了清晰的战略取舍。在硬件层面，它选择不自行研发全品类的人形整机，也不去深入优化已相对成熟的移动导航技术，而是将资源集中于那些真正决定商业价值上限的灵巧精细操作能力。在软件层面，它拒绝依附于现有的VLA或世界模型架构，转而从头搭建第三条原生的具身智能技术路线。

路线破局：对通用模型依赖路径的超越与底层逻辑重构

该企业确立了清晰的技术战略，即在发展路径上选择超越对通用模型的依赖，并着手对现有的模型底层逻辑进行系统性重构。在具体的实现策略上，它采取了一种“反向依赖”的方法来构建自身的核心技术。其主要切入点在于，团队认识到当前主流的VLA模型本质上是通用大模型在物理世界任务上的“外挂式”功能扩展，这种模式导致模型对现实物理规律的理解存在固有局限。因此，该企业并没有沿着这一成熟但受限的路径继续优化，而是决定另辟蹊径。它着手构建的是一个原生为物理交互任务而设计的基座模型，从数据采集设备到模型训练架构均进行自研，旨在从底层解决模型对物理世界理解不足的问题。

在访谈过程中，Andrew Barry明确提出了其核心观点：GEN系列模型既不属于VLA体系，也不属于世界模型体系。

行业目前普遍存在复用开源大模型权重来微调机器人模型的做法，Andrew Barry将这种做法形象地称为研发“拐杖”。相比之下，GEN-1模型有超过九成的参数是从零开始进行训练的，仅保留了少量的通用权重来辅助完成视觉识别任务，未来该模型将致力于实现完全的原生训练。这使得其架构逻辑与行业主流完全倒置。

市面上存在的绝大多数模型，其架构普遍以语言与视觉模型作为底层基础，而动作能力则被设计为一种从该基础上衍生的上层功能。与此形成鲜明对比，GEN基座模型的设计哲学截然相反，它将物体接触、力学反馈以及物理碰撞等直接的物理交互能力，确立为系统的核心底层，而语言理解与视觉感知则仅被定位为辅助性的感知模块。

根据Andrew Barry的阐述，仅依靠图文信息所实现的认知功能，其作用仅限于帮助机器人理解“是什么”，却无法有效传授“如何做”的具体操作技能。当前互联网上公开的文本与视频资源，在传递诸如摩擦特性、材料形变规律以及复杂的受力交互机制等需要直接物理感知的知识方面，其效用十分有限。因此，模型唯有通过接触并处理海量的真实物理交互数据，才能真正习得物理世界运行的底层逻辑与规律。

团队通过验证得出了一个全新的结论：使用来自不同场景、不同任务类型的人类操作异构数据进行训练，反而能够有效提升模型对光照条件变化与场地差异的抗干扰能力，这一发现彻底打破了“训练数据必须高度匹配目标应用场景”的传统认知。

核心壁垒：依托穿戴式采集设备，构建百万小时数据飞轮

与其说算法架构是行业当前面临的主要挑战，不如说高质量的实际操作数据才是真正的关键所在。正是在这一点上，Generalist建立了自身坚实的核心竞争优势。

传统的两类数据采集方案均存在固有局限：机器人遥操作采集方式不仅成本高昂，且采集到的数据往往局限于单一场景；仿真模拟方案则因存在物理失真问题，导致其生成的数据在真实机器人上的迁移应用效果大打折扣。Generalist独创了穿戴式手部动捕手套，从根本上转换了数据生产的逻辑——它不再试图将复杂场景搬到机器人面前，而是让人能够直接走入真实的物理世界，去采集原生的交互数据。

团队成功完成了硬件设备的量产与轻量化工作，并在全球范围内投放了上千台采集终端。通过面向一线工人及普通志愿者开放数据采集权限，该计划得以涵盖工厂、家居及商超等多种应用场景，从而极大地拓宽了数据来源的广度与多样性。这套系统完整地记录了操作过程中的手部姿态、受力情况以及环境视觉信息，累计沉淀了高达50万小时的原生人类交互数据，并由此构建了独家的数据飞轮。

在面对数据中不可避免地存在的人类误操作时，团队并未选择简单粗暴的“一刀切”清洗策略。Andrew Barry指出，刻意保留一部分非标准化的动作数据，反而能够训练出模型自主纠错与容错的临场应变能力。在他看来，与其追求一个理论上百分之百完美的数据集，不如培养模型适应真实工况的韧性，后者对于技术的真正落地具有更为实在的价值。

在此坚实的数据基石之上，GEN模型成功验证了物理人工智能领域的核心缩放定律。模型从GEN-0到GEN-1的演进仅历时五个月，而其在标准任务上的成功率便从66%跃升至99%，实现了性能的质的飞跃。更为关键的是，模型在此过程中展现出显著的“涌现”特性：即便训练数据仅包含单侧抓取动作，它也能自主推断并切换至另一侧手臂来完成作业，具备了无需预设脚本的临场应变能力。

商业策略上的明确取舍：将付费真实任务的表现作为核心衡量标准，对多元化研发活动保持战略克制。

众多技术团队在研发过程中往往过度专注于展示效果惊艳的实验室原型，却最终难以将其转化为具备可持续性的商业闭环。这一现象是Andrew Barry在多年实践中总结出的核心行业教训，也由此塑造了Generalist公司不可动摇的研发铁律：所有用于基准评估的任务，都必须选取当前市场上具有明确付费需求的真实生产工序。技术研发的核心宗旨在于优先满足并驱动商业价值的实现，而非仅仅追求在技术指标上达成更高的难度。

在当前市场环境中，机器人的移动导航技术已趋于成熟，能够稳定实现基础的空间移动与环境建图功能。然而，行业普遍缺乏的是精细化、高可靠的交互操作能力，这种能力的缺失直接制约了机器人技术的商业化应用潜力。因此，团队将灵巧操作能力确立为唯一的核心攻坚方向。在技术落地策略上，企业则采取了高度克制的聚焦姿态。

在硬件层面，公司采取的战略是将自身明确定位为算法服务商，并不涉足人形整机的研发与制造。其核心投入集中于自研配套的灵巧夹爪，以此为基础，以确保与自身独有的数据体系实现深度适配，并在此基础上同步开展对外销售业务，以此创造额外的营收来源。

在应用场景的选择上，团队确立了明确的优先级，将首要资源集中于工业环境中的小型零件分拣、桌面物品的规整归置，以及居家生活中的物品操作等已形成标准化付费模式的领域。其策略在于，通过率先在这些具备明确商业回报的垂直业务中实现技术落地，所产生的持续营收能够为数据采集与模型迭代的循环提供稳定且直接的资金支持。

在研发层面，将全部资源专注于打磨原生交互基座，放弃了同时布局VLA与世界模型的双线策略，以此精准地构筑其差异化的竞争优势。

与行业堆参数、造演示、讲概念的模式相区别，Generalist全程围绕真机工况与商业闭环推进研发，从而规避了行业普遍存在的商业化陷阱。

基于当前技术发展轨迹的推演，具身智能赛道的终局形态，将表现为动作模型、世界模型以及通用基座模型这三大主流路线的并行共存。分析后认为，由于各类模型在技术路径与应用生态上均存在显著的差异与优势，它们之间最终不会走向简单的替代关系，而是会根据不同的应用场景与性能要求，各自占据特定的细分领域，从而达成共存互补的格局。而从长远的行业演化视角来观察，这三大路线在算法架构、数据范式与硬件接口等层面，将会逐步走向一定程度的交叉与融合。这是基于底层技术逻辑与长期商业价值规律的推演，预示着未来产业格局的必然走向。

基于本次访谈观点以及对2026年行业现状的综合分析，可以认为全球具身智能领域已经形成了三大完整的技术路线。这些路线之间并非存在优劣之分，也不会形成相互替代的关系，从长远来看，它们将走向协同与融合。以下是对这三大路线的直观对比：

Andrew Barry表示，对模型分类标签进行反复权衡并不具备实质性的产业价值，行业在终极发展形态上所呈现的融合演进路径已十分明确：世界模型承担上层的全局性预测与规划工作，VLA负责中层的实时性动作执行任务，原生交互基座则承担底层的精细灵巧操作任务，这三个层级的架构通过协同运作共同构建出完整的通用智能体。

结合ICRA 2026所呈现的行业风向，技术赛道已全面摒弃对仿真跑分与参数内卷的侧重，将真机环境下的实际落地价值确立为统一的评判标准。在此背景下，Generalist所采用的人机协同采集数据、基于原生架构进行模型训练、并聚焦于真实操作任务的技术路线，与当前行业发展的全新趋势实现了高度的契合。

行业启示：差异化数据基建，为国产具身智能提供全新发展思路

Generalist的发展路径，不仅是海外企业的技术突围实践，亦为全球范围内的具身产业，尤其是国内的具身产业，提供了具备实践指导价值的借鉴方向。

其一，研发工作无需盲从主流范式。企业不必扎堆复刻VLA与世界模型，借助搭建专属的规模化数据采集体系，便能打造原生的差异化技术底座，从而跳出低水平的同质化竞争困局。

其二，数据采集的逻辑可以实现彻底的革新。穿戴式人机采集模式能够摆脱依赖机器人自产数据的闭环，以较低的成本产出高多样性的交互数据，从而有效解决国内行业在灵巧操作数据方面所存在的稀缺痛点。

其三，在国内的具身智能赛道中，其内在的融合性优势尤为显著。国内产业界已在世界模型与轮式VLA技术路线上积累了扎实的工程经验，并且在线下工厂、实体门店等复杂且丰富的应用场景中，储备了大量的部署资源与数据来源。因此具备条件借鉴人机协同的采集范式，系统性地弥补在精细操作能力上的短板，最终构建起“世界模型+VLA+原生交互”这种三位一体的国产具身智能技术基座。

归根结底，那些模型的参数规模、架构标签乃至学术论文中的跑分成绩，都不过是华丽却易逝的表象。唯有机器人能够真正去感知、去触碰、去理解这个实实在在的物理世界，并将这种能力转化为在真实工厂与家庭中解决问题、创造收入的价值，才是企业得以穿越漫长周期、赢得不灭根基的核心竞争力。

结语

作为初代VLA模型开发的核心成员，Andrew Barry做出了主动选择，带领团队跳出了自身曾参与搭建的行业主流技术框架，得以实施一条专注于物理交互的原生技术路线。

VLA技术为机器人提供了理解视觉信息的能力，世界模型则赋予机器人对物理过程进行推演的能力，而Generalist的原生交互模型则使机器人能够直接感知并作用于物理环境。这三种技术路径各自承担着明确的功能定位，并且相互补充与协同，共同构成了当前具身智能领域的技术生态，从而改变了过去由单一技术范式主导的局面。

对于国内具身智能产业的从业者而言，无需拘泥于直接复刻海外的发展路径，而应当结合并充分运用自身的资源与条件，针对不同的技术方向展开深耕。当前，全球具身智能领域已经正式迈入一个多元换道竞争的新阶段，其核心竞争焦点已从对特定技术路线的简单模仿，转变为对真实物理世界与实体产业实际需求的贴合与响应程度。看懂世界、预判世界以及触碰世界，实现这三者的有机融合与统一，才是下一代通用具身智能所应追求的终极形态。