从第一性原理看机器人AI：为什么它比大模型更难？

2026年06月29日 18:49

本文共计8626个字，预计阅读时长29分钟。

来源/具身研习社责编/LehuoChufang 乐活厨房

在过去几年里，机器人行业中最常见的高光时刻，几乎都是借助演示视频才得以呈现的。

一台机械臂在听懂指令之后，便会伸出手臂拿起杯子；一个人形机器人走进厨房，把杂物放回到原本位置；它能够叠好衣服、拉开抽屉、倒出咖啡，甚至在陌生房间里完成一连串看似自然的动作。

这些画面很容易让观看者产生出这样一种错觉：机器人已经开始像人类那样理解所处的世界。

但是，如果把这一问题拆解到最基础的层面，那么所得答案反而会朴素许多。

这篇来自Interlatent这家聚焦于具身智能的后训练以及部署工作的早期创业公司的文章，试图借助第一性原理对现代AI机器人技术进行重新阐述并使其得到清楚的呈现：一个机器人究竟如何理解所处的世界，如何生成所对应的动作，又为什么会在数据、延迟以及泛化这些方面遇到如此多的困难。[[1]](https://interlatent.com/blog/interlatent-modern-ai-robotics-first-principles)[[2]](https://www.51cto.com/article/847676.html)

机器人如何理解世界：从第一性原理来看，机器人所依赖的理解并非人类概念层面的认知，而是把传感器所采集的高维原始数据映射为可用于决策的内部表征。其中视觉输入占据主导地位，模型运用预训练的视觉编码器把像素转化为特征嵌入，再结合本体感受以及语言指令共同构建潜在状态。部分系统会进一步建立世界模型，以便预测如果执行某动作后未来状态会如何演变，这一过程本质上是通过海量数据习得的统计模式匹配，而非真正掌握物理因果关系。[[1]](https://interlatent.com/blog/interlatent-modern-ai-robotics-first-principles)

如何生成动作：机器人生成动作的核心在于策略网络，它以当前观察以及任务指令作为输入，直接输出关节速度、扭矩或者离散命令。现代方法多选用端到端视觉语言动作模型或者扩散策略，从噪声中逐步去噪来产生平滑的动作序列；训练阶段则主要依赖于模仿学习，把人类演示数据转化为行为克隆，同时辅以强化学习在世界模型内进行规划。这些技术让机器人得以把感知到的信息转化为具体可执行的运动，但整个过程仍高度依赖于训练数据的质量与覆盖范围。[[2]](https://www.51cto.com/article/847676.html)

数据、延迟与泛化所面临的困难：首先是数据方面，真实物理交互的收集成本极高且速度缓慢，难以覆盖现实世界中组合爆炸式的长尾场景，模拟数据虽然可以辅助却存在明显的sim-to-real差距，导致模型容易过拟合特定环境。延迟问题则源于控制回路对实时性的严格要求，通常需要20至100赫兹的频率，而大型模型的推理时间往往难以满足这一约束，在边缘设备上部署时尤为突出。泛化困难主要表现为模型在面对新物体、不同照明、摩擦变化或者长时序任务时容易累积误差，因为当前方法擅长在训练分布内插值，却难以有效外推到开放动态的环境之中。Interlatent所专注的后训练闭环正是为了通过部署后的真实轨迹收集、评分以及针对性重训来逐步缓解这些根本限制。[[1]](https://interlatent.com/blog/interlatent-modern-ai-robotics-first-principles)

文章所给出的切入口非常简单：首先把机器人控制问题看成一个函数。

有一种看似简单然而却相当准确的方式，可以用来清晰描述physical AI究竟是在执行怎样的操作。任何具备STEM背景的人士，应该都能够直观地加以理解。与其他所有AI模型相同，控制机器人的模型在本质上同样是一个函数。它把观测信息接收作为输入，例如摄像头所采集到的像素、关节的角度、夹爪所感受到的阻力等等内容；然后输出动作，也就是电机下一步需要采取的位置和力矩。除此之外，所有复杂的算法、训练方法以及数据扩展理论，其目的都是为了获得这个函数的一个足够好的版本，并将它写入神经网络的权重里面。

机器人策略本质上是一个函数。观测会从左侧持续输入进来，网络则对这些观测信息开展处理以及细化，随后一组动作指令会从右侧输出，它们对应机械臂的每一个关节，也就是它的每一个自由度。这个领域中的其他一切，都是为了让这一个函数变得足够好以及足够快。
。

如果你曾经训练过一个将输入映射到输出的模型，那么你就能够理解这个问题所具有的大致形态。而真正有意思的地方在于：当你把这个熟悉的问题形态放入到一个不断运动并且不断响应的真实世界里，究竟会发生什么情况。

文章地址：https://interlatent.com/blog/interlatent-modern-ai-robotics-first-principles

秘方，以及打破它的维度

有两个核心要素可以提升这一功能的质量：算力以及数据。数据是机器人智能的原始燃料，来自真实世界的物理规律如同未经加工的矿石一样蕴藏其中。而算力则依赖于矩阵乘法，对该功能开展了训练工作以便嵌入从数据中挖掘出的这些规律。

这听起来就像是普通的机器学习，而且在相当长一段时间里，你确实可以把它假想成普通机器学习。然而，机器人技术却引入了传统机器学习从未需要面对的第三个轴向，那就是推理时间这一维度。一个大语言模型可以花费3秒钟的时间去思考下一个Token，而不会对任何人造成伤害，但是一台正在倒咖啡的机器人则绝对不行。此时咖啡杯已经在移动当中，动作必须在事件发生的过程中同步生成。该功能不仅需要保证正确性，还必须足够快，快到当答案送达之时，其「正确性」依然具有实际意义。当你的模型还在思考之时，物理世界依然在持续运行，这导致机器人领域不得不做出一些既艰难又有趣的抉择。

将大脑一分为二

最自然的第一反应，是对一个巨大的模型开展训练工作，让它得以直接从观测映射到动作。但在实践中，这个领域逐渐走向了一种更有意思的方案。现代机器人模型通常被分成两个部分：其中一个负责理解，另一个负责行动。

其中的主干部分通常是一个大型模型，其典型形态是视觉语言模型（VLM）。它与GPT-5或Gemini在对语言以及图像开展同时理解时所运用的模型属于同一类别。由于它已经在海量互联网图文数据上完成了训练工作，因此在某种程度上已经「知道」世界是什么样的。例如，无论颜色如何，杯子依然是杯子；把东西收起来，意味着需要把它放回一个合理的位置。它承载着一种关于世界外观和运行方式的学习表征。这个部分更像一个缓慢、审慎的规划者，负责对环境进行理解。
。

与之相连的，则是一个小得多的动作专家：一个快速模型，它唯一的任务，就是接收主干模型所形成的理解，并且将其在实时场景当中细化成为平滑的电机控制指令。NVIDIA于2025年发布的人形机器人开放基础模型GR00T N1，就明确运用了这种拆分方式。它的System 2 VLM负责对场景开展较慢、更审慎的推理，而独立的System 1模块则近乎本能地生成实际动作，两者得以紧密地联合训练在一起。Physical Intelligence的π₀也采用了同样的架构：一个负责理解的VLM，加上一个负责行动的小型动作头。这就构成了所谓的视觉语言动作模型（Vision-Language-Action model，VLA）。

此版本在保持原文技术事实、专有名词以及段落结构完全不变的前提下，运用复合句式揭示了“接收—细化”的动作过程与“实时场景要求”的因果逻辑，替换了“形成了”为“所形成的”、“细化为”为“细化成为”、“采用了”为“运用了”、“进行”为“开展”、“被紧密地”为“得以紧密地”等系统性表达，使句子逻辑链条更为饱满且自然流畅，同时总字数与原文保持一致。

视觉语言动作模型是一个由两个相互耦合部分所组成的网络。大型 VLM 主干负责读取图像、语言以及机器人状态，并形成对场景的理解。小型动作专家则接收这种所形成的理解，从噪声出发，在一次前向传播中将其细化成为一个动作块：也就是一小段未来动作序列。

因此，我们从一个单体式的巨大函数，逐步走向了两个模型之间的协作：其中一个模型负责保存对世界的图景，另一个更小的模型则负责把这幅所形成的图景细化成为具体动作。
。

动作到底是怎么生成的？

接下来需要提出的问题是：这个函数究竟会以怎样的形式来输出相应的动作？答案主要存在两种，而这个领域的发展历程，在很大程度上就是从第一种形式逐步走向第二种形式的过程。

第一种是离散式的：动作头一次只生成一个动作。模型首先开展观察，输出一条单步指令，在执行完毕之后再重新开展观察。早期系统大多是以这种方式开展工作的。它显得直观，同时也适合一些较简单的问题，但其速度却太慢，而且小错误会不断地累积。每一个细微失误，都会把机器人推向一个比训练时所见过的情况稍微陌生一点的状态；下一次预测便会因此变得更差，再下一次则还会进一步恶化。最终，机器人会逐渐偏离自身的能力边界，从而导致任务失败。

第二种是动作分块，也就是模型得以一次性预测一小段未来动作序列，随后将其作为一个平滑的整体加以执行，之后再重新对模型开展查询。这个想法由斯坦福 Tony Zhao 及其合作者在 2023 年提出，名为 Action Chunking with Transformers（ACT）。它的名字借用了心理学中的「chunking」概念，指的是人类会把一连串细小动作组合成为一个流畅动作。ACT 带来了重要改进：它只需要大约十分钟的示教数据，就能学会一些对精度要求很高的任务，比如打开半透明调料杯，或者把电池插入卡槽，成功率达到 80%–90%。预测一个动作块，不仅可以缩短任务的有效长度，同时也能够缓解单步预测中反复出现的误差累积问题。

在离散模式之下，机器人每次仅能预测单一步骤，这使得微小误差会在反复执行循环之中持续累积，最终导致其逐步偏离自身所习得的能力边界。而在动作分块模式当中，机器人得以一次性确定一小段连贯动作序列，从而能够始终紧贴预定路径，有效缓解误差累积问题。

现代机器人学的诸多核心思路，实质上均在对人类的行为模式开展模仿。人类并不会一次仅对某个微小动作开展思考，随后再将其加以执行。人类是在连续流动的动作序列之中，一边进行移动、一边同步开展思考。现代机器人所追求的，正是这种连续且分块的动作生成方式，从而使得动作之间不会出现僵硬停顿，令其看起来更像一个富有生命力的活物，而非一具被外部力量所牵动的木偶。

当前生成这种平滑动作块的前沿方法被称作流匹配。这是一种借助扩散过程，将带噪声的潜变量逐步细化成为连贯轨迹的技术。π₀ 和 GR00T 中的动作专家，均从噪声出发，迭代地将其细化成为一条连贯轨迹。这与现代图像生成器所运用的是同一类技术，只不过这里所生成的并非像素，而是动作。

在权衡实时控制需求与算力资源限制的过程中，大脑应当部署于边缘端还是云端？[[1]](https://crad.ict.ac.cn/fileJSJYJYFZ/journal/article/jsjyjyfz/HTML/2020-9-1854.shtml)[[2]](https://aistudio.baidu.com/blog/detail/760085428885829)

机器人控制本质上是一个将观测映射为动作的函数，这一函数不仅需要准确，还必须足够快，以便在物理世界持续运动的过程中保持有效。边缘端适合承载快速动作专家模块（System 1），实现20–100赫兹的低延迟推理，满足平衡、抓取等安全关键的实时回路需求；云端则适合大型视觉语言模型（System 2），负责高层次理解、世界模型构建、训练以及多机器人知识共享。[[3]](https://www.aetina.com/about-news-detail.php?i=1301)[[4]](https://arxiv.org/html/2507.00523v1)

当前行业共识是采用云-边-端融合架构：本体或本地边缘集群处理低延迟动作分块与扩散策略，云端承担重计算训练与后训练闭环，从而缓解数据稀疏、泛化困难以及推理时间约束。NVIDIA GR00T、Physical Intelligence π₀等方案均体现了这一拆分，Interlatent所专注的部署后真实轨迹收集与针对性重训，也正是为了让混合系统在真实环境中逐步提升。[[5]](https://www.moduledge.com/blog/edge-data-center-robots)

因此，大脑并非二选一，而是通过分层部署实现“快思考在边缘、深思考借云端”的协同，以同时满足物理AI对速度、规模与持续学习的根本要求。

当这个函数构建完成之后，就必须决定把它部署在哪里来运行。在这一决策过程中，会出现一个核心取舍问题，那就是可用算力与延迟两者之间的平衡。

你可以将模型部署于边缘端，也就是直接运行在与机器人相连接的计算机之上。这样一来，延迟得以几乎降低至零，当然其前提在于模型必须能够成功装进边缘设备之中。这种方式非常适合物理世界中的实时控制需求，然而你会受到机身可搭载硬件方面的限制，因此往往不得不对模型开展压缩处理以适应要求。

此外，亦可将模型部署于云端，把重计算任务交付给性能强大的服务器，随后借助互联网把动作指令传回机器人本体。这种方式得以运行规模更大的模型，然而由于每一个动作都必须经历一次网络往返过程，此时延迟便会成为实时控制的核心敌人。

这一约束究竟有多么严苛？以 π₀.₅ 为例。在高端 GPU 上，它完成一次完整的感知与动作循环大约需要 274 毫秒，其中约 80% 的时间均消耗在迭代式流匹配细化过程当中。而在一个以 3Hz 控制循环运行的小型边缘设备上，每个周期总共只有约 330 毫秒，感知处理和动作生成都必须在这段时间内得以完成，几乎没有任何缓冲余量。

这正是整个领域所必须直面的核心问题：云端部署得以赋予机器人规模更大的大脑，边缘端部署则得以赋予机器人速度更快的大脑。但不能让「思考」与「行动」之间的间隔变得太长，否则当机器人完成思考之时，真实世界早已发生了变化。

在边缘端，模型得以直接在设备上运行，无需经过网络传输，然而由于加速器性能相对较弱，因此计算耗时便会相应延长。切换到云端后，更强的 GPU 虽然能够缩短计算时间，但此时每一个动作均需经历一次网络往返。若将网络往返延迟逐步向上拖动，你便会看到总耗时超过 330 毫秒的截止线。

数据瓶颈

与许多深度学习问题所面临的情形一样，机器人学同样也受困于数据。但对于机器人学而言，真正麻烦的核心之处尤其在于数据的多样性这一关键维度之上。

最丰富的机器人数据来源于遥操作：即由人类操作者一遍又一遍地操控机器人以完成某项具体任务。尽管专家示教通常能够稳定地产生优秀策略，然而它却很难实现规模化扩展。每一小时所收集到的数据均对应着一小时的人类劳动成本；在某些情况下甚至需要更多投入，因为示教质量本身具有至关重要的意义。更糟糕的是，每一种机器人、每一种夹爪、每一个实验室，往往都会产生一套彼此不兼容的小型数据集。GR00T团队很贴切地将这种状况称为由一个个「数据孤岛」所组成的群岛，而不是一片统一、连贯、互联网规模的数据海洋。

这与 AI 其他领域的发展路径形成了鲜明对比。在其他 AI 领域，关键魔法往往是一样的：把问题转化为能够借助计算规模化加以解决的形式。例如，语言建模之所以能够实现扩展，正是因为文本数据不仅极其丰富，而且可以相对通用地在不同场景中互换使用。机器人学却并未拥有类似的数据洪流。因此，这个领域便分化出了两种策略，旨在制造那些无法简单收集到的数据。

策略一：模拟世界

如果无法从真实世界当中收集到足够多的数据，那么便需要构建出一个虚拟的世界，以便让机器人在其中开展免费的练习。这正是世界模型以及仿真得以发挥作用的核心所在。准确而言，仿真是一个更为宽泛的概念，它指的是任何能够足够好地对世界开展建模工作、以便机器人在其中进行练习的系统。世界模型则是一种神经网络：给定当前状态以及一个动作，它会对世界接下来会变成怎样的状态开展预测。它会对行动带来的后果开展学习，通常会借助图像等媒介来加以表达；更为关键的是，它从观察中学习物理规律，而非依赖人工编写的规则，因此得以捕捉目标环境中重要的动态特征。

2025至2026年间，这一方向的关键跃迁源自Google DeepMind的Genie 3。它作为一个世界模型，只需要借助文本提示就能够实时生成完全可交互、可导航的3D环境，并根据此前帧来预测每一帧。它对机器人学所具有的意义显而易见：可以提供无限、廉价的训练场景，包括那些在现实中绝不会想搭建的危险边缘案例。Waymo走的正是这条路线，构建了Waymo World Model，用来生成同步的摄像头与激光雷达驾驶场景，其中包含真实车辆几乎很少遇到的罕见情况。NVIDIA也发现，在GR00T的训练中混入合成数据，相比只运用真实数据，性能提升了40%。这个方向的愿景，是把数据问题转化为计算问题。一旦做到这一点，机器人学就能继承AI其他领域已经享受到的所有优势。

策略二：向日常生活中的人类学习

第二种策略所具备的隐蔽性更强，同时也能够体现出优雅的特征。最具规模化潜力的机器人数据收集器，其实是由佩戴眼镜的人类来承担，而并非机器人。

Meta 所开发的 Ego4D 等项目，以及 Project Aria 眼镜，彻底重构了这一问题。Ego4D 收集到了超过 3000 小时的人类第一视角视频，所记录的是人们完成日常事务的具体过程。佐治亚理工的一套系统 EgoMimic 对这一点概括得十分准确：当看到一个庞大的人类第一视角数据集时，其中所看到的本质上也可以是一个庞大的机器人数据集，只不过它是由人们在日常生活中被动生成的。

当你戴上眼镜并照常开展日常生活时，就已经在以人类生活本身的规模进行操作数据的生产。那项工作中最引人注意的发现是：额外增加一小时人类手部数据，对机器人的提升效果会超过额外增加一小时机器人数据。

因此，相对于需要专门投入人力的遥操作而言，第一视角数据收集所承诺的是一种额外成本更低的大规模数据路径。

训练

在架构以及数据准备完毕之后，如何才能真正制造出一个具备实际能力的机器人？答案在于采取分阶段的方式来进行这一过程，其中每个阶段都会设定不同的具体目标。

这些能力是在一个又一个阶段当中逐步建立起来的，其中每一层都会建立在前一层所提供的基础之上。

预训练过程承担着塑造VLM主干的责任。你借助向它输入海量关于空间推理以及世界一般运行方式的数据，从而让它得以建立起对物理世界的理解和推理能力。

在中期训练阶段，系统主要承担创建动作专家的任务。其目标是得到一个能够在几乎任何配置条件下都大致正常运作的「大脑」，它可以将自身形成的理解转化为各种具体动作，并适配到多种不同类型的机器人身上。这一目标的达成需要运用大量来自不同环境以及不同机器人形态的数据。

后训练阶段，也就是微调过程，则是将这个通用大脑调适到某个具体身体以及一小组具体任务之上。例如，将一个通用模型专门适配到某个双臂机器人系统上，它就能够在这种具体形态下实现开箱即用的效果，并且取得较好的性能。在这个阶段当中，真实世界数据的价值会真正地体现出来：其中遥操作数据以及第一视角数据，往往最能够直接转化为现实中的表现。

部署训练的目标，在于让机器人逐步适应某一个特定的具体环境，从而使得它在那里能够真正实现安全运行并且变得真正有用。这正是「能在演示里工作」以及「能在你家厨房里工作」之间所存在的关键差距。许多看起来十分惊艳的系统，最后往往都会在这个环节悄然失效。π₀.₅之所以有意思，正是因为它试图去缩小这道显著的鸿沟：它被专门设计用来清理那些在训练中从未见过的家庭厨房以及卧室。它经常能够做到这一点，虽然并不完美，但已经可以看出其中蕴含了一丝类似人类进入陌生房间时所展现出的那种应变能力。

让机器人自我教学

然而这一切都存在上限。一个仅仅依赖示教训练所得出的机器人，最多也只能达到与示教水平相当的程度。它所学会的是理想路径，却没有学会如何从自己的错误中进行恢复，这是因为它从未真正见过这些错误。这就像仅仅观看完美驾驶视频来学习开车一样：一旦第一次转错弯，就会陷入手足无措的境地。

出路在于让机器人像人类那样进行学习：也就是通过练习，并且接受批评。这就是强化学习：让机器人进行尝试，对结果进行打分，然后强化那些有效的行为。问题在于，你不可能在每一个时刻都对机器人进行监督，也不可能为每一种可能情况都提供样例。而在真实世界中，不同于模拟器，每一次尝试都是串行的、缓慢的，还需要人类重新布置场景。因此，物理世界中的强化学习会变得非常困难。

另一种办法是对人类干预进行引入，这同样被证明很有用。当机器人进入糟糕或不安全的状态时，人类可以对推理过程进行中断，并把它带回到更好的状态。这也催生出了一系列基于人在回路的学习算法，例如HIL-SERL。

最近最为生动的示范，是Physical Intelligence的π*₀.₆。它运用了一种名为RECAP的训练方法，将人类掌握一项技能的完整过程编织在了一起：指令学习，也就是借助观看示教来实现学习；指导纠错，也就是人类遥操作员所进行的实时介入。

来源：从第一性原理看机器人AI：为什么它比大模型更难？ | 具身研习社

声明：本文来自具身研习社，版权归作者所有。文章内容仅代表作者独立观点，不代表爱力方立场，转载目的在于传递更多信息。如有侵权，请联系 copyright#agent.ren。