Ted谈机器人十年：DeepMind研究者的信念修正历程

2026年06月17日 16:12

本文共计7148个字，预计阅读时长24分钟。

来源/具身研习社责编/PixelHunter 像素猎人

作者：李文泉编辑：晋芳博出品：机器人产业应用

机器学习在机器人领域过去十年的进展，往往容易被简化为一条线性的技术发展序列：从QT-Opt到RT-1、SayCan、RT-2，直至Gemini Robotics。然而，真实的研究图景远比这更为丰富与复杂。在近期由RoboPapers策划的一次访谈中，作为这段历程的亲历者与核心贡献者，Ted Xiao系统性地梳理了近十年来具身智能领域所经历的深刻变革。他不仅仅回顾了技术演进的脉络，更深入剖析了驱动每一个关键决策背后的思考逻辑与权衡过程。

Ted Xiao曾担任Google DeepMind机器人团队的高级研究科学家兼技术负责人，其工作深度参与了RT-1、RT-2、SayCan等具身智能基础模型项目的研发。他在佐治亚理工学院取得了博士学位，其研究方向实现了从计算机图形学向机器人领域的转向，并在该领域持续深耕了近十年。目前，Ted Xiao已离开Google，加入了由亚马逊创始人杰夫·贝佐斯创立的AI初创公司Project Prometheus。

本内容源自“RoboPapers”系列访谈节目与Ted的深度对话，其完整视频可通过此链接观看：youtube.com/watch?v=etPqBphTgmE。

强化学习（RL）一度被视作问题的答案，而今则演变为问题的一部分

在2015年至2016年间，DQN与AlphaGo的成功引发了一种强烈的设想：既然系统可以借助从经验中学习的方式取得进展，那么机器人是否也能够运用类似的方法来应对问题呢？

Ted Xiao回顾道，在当时，Google Brain旗下的机器人团队规模尚不足20人。为了推进研究，他们专门搭建了名为Robot Farm的实验设施，让多台KUKA工业机械臂在真实环境中连续不断地进行物体抓取作业，从而实现24小时不间断的运行。这一安排旨在持续积累经验数据，用以训练控制策略。支撑该方向的核心信念非常明确：只要机器人能够在真实交互中持续进行试错，并从环境中获得反馈，它们最终就能像AlphaGo在围棋领域那样，通过海量的经验逐步掌握复杂的任务技能。

QT-Opt作为该阶段的代表性成果，是一项于2018年提出的分布式强化学习算法。该算法借助大规模真实机械臂抓取数据，验证了端到端控制在实际机器人系统中的可行性，为后续机器人基础模型的研究奠定了重要基础。该方法旨在将强化学习范式拓展至真实机器人场景，使其能够处理图像输入、连续动作空间、高维状态表示以及物理交互等多重挑战。团队不仅专注于算法研发，还搭建了涵盖控制栈、数据采集、评估机制、硬件维护与训练框架的完整系统，各模块协同运作以支撑整体研究。

问题也正是在这一阶段逐渐暴露出来。尽管强化学习（RL）的确能够促使性能曲线取得提升，然而其所付出的代价却日益增大，导致系统变得愈发难以维护。策略检查点会逐渐过时，同时仿真数据与真实数据的混合使用方式以及复现方法，都演变成了沉重的负担。强化学习则从最初那个“让机器人自己学会一切”的美好愿景，逐步转变成了一个在工程层面持续膨胀的复杂系统。

Ted Xiao最为深刻的一项反思便体现在此处。强化学习（RL）作为一种技术路径，已经证实了端到端学习模式在现实物理世界中确实具备发生的可能性；然而，它也同时促使整个团队认识到，机器人领域的问题并非仅仅依靠更强大的算法就能迎刃而解。早期的机器人学习之所以对RL的作用存在过高预期，原因在于将源于游戏世界的成功经验与直观想象，直接平移至现实世界的情境之中；而现实环境在成本、稳定性以及可重复性等方面，都远较游戏世界更为高昂、脆弱且难以复现。

Google 最关键的一年半，没有论文

如果说前一阶段所探讨的是强化学习范式在研究社区中所获得的普遍认同开始出现动摇，那么接下来的章节才真正标志着Google机器人技术路线的根本性转向。

Ted指出，团队曾耗费约一年半的时间，尽管围绕那批数据发表的论文寥寥无几，却将大量精力投入到一项听起来或许不够“前沿”的工作中：系统性收集高质量的专家示范数据。近十台机器人设备、十位操作员，围绕数百种不同的任务类别，持续不断地采集离线操作数据。Ted将这一策略概括为“慢下来，是为了后续更快地前进”。这不仅是数据规模上的简单扩充，更体现了一种深思熟虑的长期投入：在看似枯燥的基础数据建设上付出足够的时间与耐心，恰恰是为了在未来的模型训练与能力突破中积蓄真正的加速度。

从当前视角进行审视，这一选择的合理性似乎变得相当显而易见。大型模型时代已经通过反复的实践所证实：数据的规模与质量在很大程度上决定了模型能力所能达到的上限。然而在当时，行为克隆（Behavior Cloning，简称BC）作为一种经典方法，其方向选择并非就显得显而易见。研究社区所形成的共识几乎一致认为：行为克隆仅能够作为启动阶段的策略手段，如果要将性能真正提升至90%以上，则必须依赖于强化学习。原因在于行为克隆方法会遭遇分布偏移现象以及误差累积效应，这使得其性能上限存在明显的天花板。

然而，后续的实验结果推翻了这一预期判断。通过系统地重构训练框架并修复基础设施层面存在的问题，行为克隆方法不再局限于60%至70%的性能区间，其准确率得以跃升至90%乃至95%的水平，并且能够随着更多真实机器人数据的注入而持续提升。

此番改进远非一次普通的性能优化。它标志着一个根本性认知框架的修正：过往的普遍预判是，行为克隆（BC）仅为整个流程的预热阶段，而强化学习（RL）才是真正检验能力的核心环节；然而，后续的实践揭示了一个新的事实，即如果数据具备足够的质量，且训练流程保持高度的稳定与可靠，那么行为克隆方法本身便足以承担起核心环节的职责。这一认知的转变，恰恰是后续机器人Transformer第一代（RT-1）与第二代（RT-2）等一系列技术路线得以确立并发展的重要前提。

机器人学习范式已经从侧重于自主探索世界的方式，转变为强调学习人类已完成的经验知识。这一章的关键并不在于行为克隆（BC）与强化学习（RL）之间的胜负对比，而是该领域首次深刻认识到：以往可能对高质量真实世界数据所具备的力量存在低估。

# 从零到一的转变

RT-2所揭示的核心事实并非机器人本体能力的提升，而是机器人不必再从最初阶段开始学习。这一认知框架的根本性转变，正是驱动后续技术路线演进的关键所在。

当基础模型（Foundation Model）在语言与视觉领域初步展现出泛化能力之后，一个根本性的问题随之浮现：既然通过互联网训练所获得的大规模模型已经积累了大量关于世界的知识，机器人是否可以不必从零开始学习，而是直接继承并运用这些能力？

RT-1、SayCan（谷歌于2022年发布的机器人系统）以及RT-2，可以被视作针对这一问题所给出的不同解答。RT-1把机器人控制问题转化为了词元预测（Token Prediction）的任务形式，将图像、语言以及动作等多种模态统一纳入到Transformer框架之中。SayCan则在此基础上构建了一层连接机制：由语言模型负责提出动作计划，而机器人价值函数则负责对这些动作在当前场景中的实际可行性进行判断。

真正的观念转变体现在RT-2之上。该模型不再仅仅将语言模型视为外部的规划组件，也不仅限于借用视觉特征表示，而是把VLM直接改造成为Vision-Language-Action模型，从而使大语言模型真正融入了机器人控制策略的核心环节之中。

从当前的技术阶段回溯，Ted指出，VLA这一理念本应更早被提出。其延迟出现的根源在于机器人领域长期存在的某种思维惯性：系统往往倾向于完全自主构建，涉及从视觉编码器、动作表示到策略网络乃至训练系统的各个环节，习惯于打造一套完全为机器人应用量身定制的专属体系。

这一路径有其合理性，但RT-2所秉持的是另一种思路：机器人不一定要重新构建人工智能。既然大型模型已经习得了语言、视觉、物体关系、空间概念乃至一部分物理常识，那么在有限的机器人数据集中重新学习这些知识与能力便并非必要。机器人应当尽可能继承已有的通用能力，继而仅在动作空间上进行最小程度的必要改造。

RT-2 的真正重要性在于，它并非仅仅证明了机器人模型可以实现规模的扩大，而是推动机器人研究领域开始接受这样一个事实：许多能力并不需要完全依赖于机器人自身的数据从头进行学习。机器人在过去之所以低估了 Foundation Model 的潜力，主要源于它对自身问题特殊性的过高估计。

Scaling 正在改写机器人研究的胜负手

Ted将机器人学习技术的发展脉络梳理为三个依次递进的阶段。首先是“存在性验证”阶段，该阶段的核心贡献在于为端到端学习方法在真实世界场景中的有效性提供了初步的证据。随后进入“基础模型”阶段，这一时期成功验证了大型模型能够被整合到机器人系统架构之中的可行性。而当前我们正身处的第三个阶段，则聚焦于系统的规模化发展。

随着规模化（Scaling）进程的推进，竞争的胜负关键点正在发生根本性转变。与过去研究者更关注下一个算法的突破不同，当今更核心的问题演变为：谁能够获取更多高质量数据，谁能够有效维护更大规模的机器人集群，谁能够实现涵盖采集、训练和评估在内的完整闭环，以及谁能够将机器人从实验室环境推向更复杂的真实场景。

在RT-1技术阶段，87000条机器人轨迹数据已经构成了相当可观的规模。然而，当前行业所关注的数据量级已跃升至数十万小时乃至上百万小时的水平，同时研究对象也拓展至双臂机器人、人形机器人等多种本体形态，涵盖了跨本体迁移能力以及更为复杂的操作任务。

Ted在提及Generalist、Physical Intelligence与Skild等公司之际，所关注的焦点并非这些团队所采用的模型架构，而是这些团队正在将硬件基础设施、数据资源、模型算法以及运营体系进行同步的规模化扩展。这一特征与大模型行业的发展经验呈现出显著的相似性：尽管Transformer架构本身具有重要价值，但GPT之所以能够引发行业性的深刻变革，其根本原因在于数据规模、计算资源、训练规模与产品形态这四个要素协同演进，并最终达到了某个关键性的临界点。

机器人领域或许也正在经历类似的发展阶段。许多重要的突破可能并非源于某个全新的算法框架，而是来自于将当前已验证有效的方法进行十倍甚至百倍的规模化应用，从而促使系统涌现出前所未有的能力。这并不是在否定算法创新的重要性，而是在指出机器人领域过去或许过于强调单点算法的创新价值，相对低估了由系统规模扩张所带来的结构性变化。在规模化发展的时代背景下，算法只是整体系统的一个组成部分，数据采集流程、硬件本体设计、远程操作机制、评估验证体系、实际产品场景以及工程组织能力等要素，其重要性都开始与算法本身并驾齐驱。机器人领域的研究竞争正逐渐从单纯的学术论文发表竞赛，转变为涵盖长期系统能力构建与运营的综合竞赛。

尽管学术界在机器人技术的发展中依然占据着举足轻重的地位，然而，它已不再像过去那样，独自占据着能力发展的前沿阵地。与此形成对照的是，当前产业界所拥有的数据资源、硬件基础设施乃至运营维护体系，正在为相关研究的推进提供更为充足的支撑条件。

Ted对于学术界角色转变的论述也值得深入考量。他所持有的判断并非“学术界不再重要”，恰恰相反，学术界依然在持续产出创新性的研究思路、开展理论层面的深入分析、构建客观的评测基准、提供开放的共享数据集，并且继续承担着培养新一代研究人员的重要使命。

但核心症结在于，机器人能力的提升如今有赖于一系列资源，这些资源是绝大多数大学实验室难以长期维系的。硬件设施的规模、持续性的数据采集能力、专职的工程团队、充裕的算力、可供部署的真实场景，以及长期的系统运营能力，这些要素共同演进为能力突破过程中的关键组成部分。这预示着，对最前沿能力的验证工作，正越来越多地由产业界所主导。

Google DeepMind、Physical Intelligence、Figure 等机构所具有的优势，不仅在于其研究人员更为卓越，也在于它们有能力持续投入于复杂且昂贵的系统工程之中。Ted 指出，如果学术界希望在当前的能力竞赛中继续发挥作用，那么跨机构协作、开放数据集以及开放评测平台将显得尤为关键。否则，单个实验室将难以独立承担今日机器人规模化发展所要求的资源门槛。

这正是机器人领域目前所经历的结构性变化。在过去，大学实验室能够通过提出一套方法，随后便直接将机器人能力推向研究前沿。而在今天，学术界更多地承担着提供研究思想、工具以及分析框架的角色，真正将机器人能力推向极限的主体，正逐渐演变为大型科技企业的实验室以及各类创业公司。

这一现象并非机器人领域所独有，大模型行业实际上已经率先完成了一次类似的范式转变。机器人领域所面临的挑战，只不过使这一转变过程变得更加复杂、成本更高且周期更长，因为其额外引入了现实世界中硬件交互的维度。本章的核心判断在于：在能力前沿的探索中，我们或许过高估计了学术界所扮演的直接角色，与此同时，却对产业界在规模化（Scaling）时代所具有的决定性地位认识不足。

Ted对机器人技术的未来做出了明确的判断，他认为关键将在于对视频数据以及第一视角数据的运用。

Ted Xiao 押注的方向，其核心并不局限于构建形态上模仿人类的机器人，而是将目光投向了两条关键的数据发展路径：通过视频序列学习动作模式的Video Action Models，以及基于第一人称视角人类操作数据的Egocentric Human Data。

作为一种视频动作模型，它可被视为面向机器人控制的世界模型，不仅需要对视频的下一帧进行预测，更需要理解动作如何改变世界的状态，进而推断出下一步应当执行什么操作。后者指的是第一视角人类数据，借助头戴摄像机、AR 眼镜等设备，记录人类在真实世界中完成任务的具体方式，并将这些行为经验随后转移给机器人。

这两条技术路径所指向的核心问题实质上是相同的：即如何使机器人能够获取并学习互联网规模下的人类行为经验。传统机器人学习面临的主要数据瓶颈在于，每一条演示轨迹都必须由机器人本体在真实环境中亲自执行完成，这一过程导致数据采集成本高昂、速度缓慢，并且高度依赖于特定的硬件平台与操作场景。然而，人类个体每天在现实世界中执行着大量的操作活动，这些动作序列背后蕴含着丰富的关于物体属性、空间关系、物理接触、因果逻辑以及任务组织结构的宝贵信息。倘若机器人能够有效地从这类视频数据以及第一人称视角的人类行为记录中进行学习，那么其数据来源的边界就将不再局限于配备专用设备的机器人实验室，而是有望大幅扩展至整个真实、开放的外部世界。

Ted指出，关于借助人类数据以及第一视角数据开展机器人学习的构想，并非当代才涌现的全新思路。早在数年之前，众多研究团队便已对此开展过相关的探索与实践，只是在那个时期，受限于数据质量与规模的不足、硬件设备的性能局限，以及模型能力的欠缺，这些构想未能获得实质性的推进。换言之，这并非一个前所未有的全新概念，而是一个终于在当下迎来了适宜发展时机的既有想法。

这与文章的核心论点形成了呼应。Ted最为关注的未来前景，既不是某项特定的算法创新，也不是某种特定的机器人形态设计，而是在于获取更大规模、更具真实性且更贴近人类经验的数据。对于视频数据以及第一人称视角数据的价值，相关认识仍可能存在不足。

总而言之，机器人技术领域所期待的ChatGPT时刻，不会率先发生于学术论文之中。

在访谈的最后，当被问及机器人何时能迎来自己的 ChatGPT 时刻时，Ted 的回答显得颇为审慎。人们往往将这一时刻简单地误解为某个单一技术的突破。然而，ChatGPT 之所以能成为 ChatGPT，其原因并不止于 Transformer 架构或 GPT-3 模型本身，也并非源于某篇单独的论文。一个真正的 ChatGPT 时刻，实质上是一个足够成熟的技术，被恰当地包装进一种足够简洁、且足够有用的产品形态里，随后便开始在普通人的日常中被频繁使用。这既是一个技术时刻，同样也是一个产品时刻，但最终被历史所铭记的，往往是后者。

对于机器人技术而言，情况亦然。机器人的ChatGPT时刻，并不会仅因为某个机器人成功完成后空翻、完成一次衣物折叠或进行一顿烹饪演示而降临。真正具有决定意义的时刻，是指当普通民众开始在日常生活中频繁使用机器人，并切实感受到其带来实际效用之时。

这也是本次访谈最值得反复推敲的精华所在。它并非聚焦于某个特定模型如何取得优势，而是深刻揭示了一个研究领域是如何通过多次实践，持续修正自身认知框架的历程：从一度将强化学习视为解决所有问题的万能钥匙，到逐步认识到高质量数据所具备的决定性作用；从最初低估了基础模型（Foundation Model）的潜力，到接受“规模化”（Scaling）这一原则正在重塑研究范式的基本共识；从最初倾向于将学术界视为推动能力进步的核心阵地，到逐渐认识到产业界所构建的完整系统、数据闭环与真实部署所发挥的关键作用；最终，再到以新的眼光，重新审视视频数据以及第一视角（Egocentric）数据这类“旧有想法”在当下所焕发出的新价值。

过去十年的机器人学习领域，其发展脉络体现在论文、模型与系统的持续演进之中，而更深层的动向，则反映为行业对自身基本假设所进行的系统性审视与调整。倘若机器人领域真的会迎来属于自己的“ChatGPT时刻”，那么这一时刻的发生，其决定性场景很可能并非始于某篇学术论文的发表，而是起始于某个普通用户首次形成这样的切实感受：这款机器人，在明日依然值得使用。

来源：Ted谈机器人十年：一个DeepMind研究者的信念修正历程 | 具身研习社

声明：本文来自具身研习社，版权归作者所有。文章内容仅代表作者独立观点，不代表爱力方立场，转载目的在于传递更多信息。如有侵权，请联系 copyright#agent.ren。