英伟达在机器人自我研究领域展开探索

2026年06月22日 17:23
本文共计7771个字,预计阅读时长26分钟。
来源/具身研习社 责编/jikelaowang 极客老王

看来,又为英伟达(NVIDIA)这家企业,开辟了一种新的计算资源消耗途径(这带有一丝幽默意味)。

就在刚刚不久,由英伟达、卡内基梅隆大学以及加州大学伯克利分校共同开发并正式发布了名为Autoresearch的具身智能研究框架,旨在为具身智能这一前沿方向提供系统性的研究框架。

ENPIRE。

ENPIRE旨在实现AI agent自主开展机器人研究,具体而言是借助8个Coding Agent,各自独立控制一台双臂机器人。

Agent能够自主完成阅读论文、改进算法、优化策略、部署实验、分析结果以及总结经验等工作,若对结果不满意,便会更换思路重新尝试。

GEAR系统实现了自主运行,研究员们无需实时监控并手动调整参数,只需在次日清晨查阅系统自动生成的分析报告。

796684add87bcf4800c39e9bf650add4.png

具体的实验方式如下:实验室会提前布置好场景,随后Codex与机器人将自主完成所有后续操作。

效果嘛,还真不差。

在最具代表性的Pin Insertion(插针)任务中,借助在持续3小时的实验过程中对策略的反复迭代与验证,机器人成功将针精确插入直径为4毫米的孔洞的成功率从最初的为零,逐步提升至达到了99%。

整个实验过程均无人类直接参与,项目负责人之一的Jim Fan随后发布推文表示:

GEAR实验室的部分系统已具备在夜间自主执行自我改进的能力。因此,研究人员不再需要进行持续的实时监控,只需在次日清晨通过审阅系统自动生成的报告,即可掌握其运行成果。

7cf0e762c1b467a566e546532cf50b0c.png

不过也有网友表示:

就在不久前,英伟达、卡内基梅隆大学以及加州大学伯克利分校共同开发并正式发布了一个名为 Autoresearch 的具身智能研究框架。该框架旨在为具身智能这一前沿方向构建一个系统性的研究框架。ENPIRE 的目标在于让 AI 智能体能够自主地开展机器人研究工作,具体而言,它借助 8 个 Coding Agent,每个智能体各自独立地控制一台双臂机器人。这些智能体能够自主完成诸如阅读论文、改进算法、优化策略、部署实验、分析结果以及总结经验等多个方面的工作。如果对当前实验结果不满意,它们便会更换思路重新尝试。GEAR 系统实现了自主运行,研究人员无需再进行实时监控和手动参数调整,只需要在第二天早上查阅系统自动生成的分析报告即可。具体的实验方式如下:实验室会按照预设场景布置好环境,随后 Codex 与机器人将自主完成所有后续操作。在最具代表性的 Pin Insertion(插针)任务中,通过持续 3 小时实验过程中对策略的反复迭代与验证,机器人成功将针精确插入直径为 4 毫米的孔洞的成功率,从最初的完全无法成功,逐步提升到了 99%。整个实验过程均无人类直接参与,项目负责人之一的 Jim Fan 随后发布推文表示:GEAR 实验室的部分系统已具备在夜间自主执行自我改进的能力。因此,研究人员不再需要进行持续的实时监控,只需在次日清晨通过审阅系统自动生成的报告,即可掌握其运行成果。

61b00b01b59ab619bbeaeca64b531e2b.png

具身智能研究的harness

首先需要明确,ENPIRE框架的核心目标并非让智能体直接编写底层控制代码以操纵机器人。其设计理念更贴近于一位自主的机器人研究员,旨在使其能够在真实环境中独立完成包括重置实验场景、对相关文献资料进行检索、将其构想付诸实践、对实验结果进行验证与分析,并据此优化后续迭代在内的全流程研究工作。

与Code as Policy这类方法有所不同,ENPIRE的最终产出则并非一段控制脚本,而是一个真正能够被部署到机器人本体上的策略模型(Policy)。

这项工作之所以具有相当的难度,根本原因在于现实环境与代码世界存在本质差异。

在代码世界当中,如果Agent编写出错误的代码,相关代码可以被删除并重新进行编写;倘若实验在执行过程中出现崩溃,也可以相对便捷地重新启动实验进程。

但机器人研究则有所不同,一旦实验失败,实验对象的位置会发生偏移,实验环境会变得混乱,机器人本体甚至可能意外碰撞并移位实验道具。

倘若在每轮实验中,实验复位、结果记录以及数据整理工作均需依赖研究员手动进行,那么Agent将无法实现24小时不间断的研究进程。

因此,ENPIRE所构建的系统,其核心功能在于为AI研究人员提供了一个自动化的实验平台。

论文里把它称为 Harness Framework。

简言之,ENPIRE系统为Coding Agent配备了开展物理实验所必需的完整基础设施。

这套基础设施由四个部分所构成,从而恰好对应ENPIRE这个名字:

EN环境模块(Environment)负责搭建并维护实验环境,涵盖了安全边界的划定、实验场景的自动复位以及对实验结果的自动评分。

029cfefbb348939d164aa17b471a1da6.png

在明确了具体任务目标之后,Agent能够自主地生成并提出相应的解决方案。这些方案可以是采用行为克隆、强化学习、启发式规则等单一技术路线,也可以是融合这些方法的混合策略。

R(Rollout) ——部署测试:将新的策略模型应用于真实机器人以执行具体任务,在此过程中会执行轨迹记录、相关视频记录以及传感器信号采集。

E(Evolution)——进化:此模块构成了多智能体协作架构的核心驱动层。八个智能体各自独立操控一台机器人,借助Git作为版本控制与代码共享平台,实现了实验代码库的同步。它们在运行中持续评估彼此产出的策略方案,从中学习并整合有效的技术路径,同时系统性地淘汰经实验验证失败的探索方向,从而驱动整体策略集的迭代优化。

当这四个模块彼此衔接并实现联动之后,便得以构建起一个完整的研究闭环:

形成想法 → 训练策略 → 进行真机测试 → 实施自动评分 → 总结经验 → 再提出新想法。

整个过程无需人工值守,Agent独立完成实验操作,并从实验结果中自主进行学习与总结。

而其中最为核心的组件,当属Environment模块。其重要性体现在它有效应对了具身智能研究领域里一项最具挑战性的难题:

怎么让实验自动跑起来。

在仿真环境当中,环境状态的复位操作通常仅需通过调用一行代码即可完成,即执行`env.reset()`指令。

但现实世界没有env.reset()。

在一次失败实验结束以后,机器人首先需要把场景恢复至初始状态,如此下一轮实验才能开始。

以GPU插拔任务为例,机器人需要首先从主板上完成GPU的拔出操作,随后将其移动至预定位置并执行放置动作,最终使自身复位至初始待命状态。

整个过程涉及一系列精密的力控操作环节,因为任何操作上的失误都有可能对GPU针脚造成不可逆的损伤。

自动评分同样如此。

在诸如扎带穿扎之类的任务当中,智能体(Agent)需要对“扎带尾部是否已成功穿过扎带头”这一状态执行判断操作。

为给出这个问题的准确答案,Agent甚至自主设计了一套视觉检测方案。

顶部和侧面两个摄像头同时对目标区域开展观察工作,并各自执行图像分割操作;只有当这两个视角均确认扎带尾端已经成功穿过扎带头,系统才会判定实验获得成功。

在响应速度方面,整体的检测延迟得以被压缩至150毫秒以内,使其已非常接近人类的视觉反应速度。

这些自动复位、自动评分以及安全控制相关的接口,一旦完成调试并验证通过,便会被固化为标准API以供后续调用。

后续Agent在开展研究时,已无需再关注底层实验流程。

由此,真实世界才真正转变为一个能够被系统性地反复调用与持续优化的研究环境。

185a6232791bb47ad87ddf7f1a8c49f0.png

好的agent不比研究员差

然而,仅拥有实验平台尚显不足。更具研究意义的核心问题在于:

当机器人、GPU以及Token等资源被悉数配置完成之后,Agent是否真正具备开展研究的能力?

ENPIRE所给出的答案是:是的,而且十分逼真。

正如文章开篇所述,该研究工作在四项高难度灵巧操作任务上开展了实验验证:

这四个任务分别是:执行Push-T任务,将T形积木推动至指定目标位置;进行Pin Insertion任务,完成将针体精准插入直径4毫米孔洞的操作;完成GPU Insertion任务,将GPU模块安装到主板对应的插槽之中;以及实施Zip-tie任务,包括扎带的穿扎与后续剪切工序。

最终,所有四项任务均达到了99%的成功率。

但相比最终取得的成果,Agent获得该结果的具体过程往往更具启发性,这一点在Pin Insertion任务中体现得尤为典型。

该论文完整地呈现了智能体的创意树,即其研究思路的动态演化路径。

从中能够得以清晰地观察到一条广为人知的研究路径:

先试行为克隆(Behavior Cloning),效果一般;

通过向训练流程中引入由在线强化学习所生成的数据,相关模型的性能得以开始提升。

在此基础上进一步增加正则化项后,相关成功率随即出现了显著的跃升;

随后继续对Batch Size进行调整,用以补偿控制器所存在的延迟,从而进一步提升了系统的稳定性。

在整个实验过程中,Agent的迭代研究方式与人类研究员相似,它通过逐步尝试并优化策略,成功地将成功率从接近于零提升至接近100%。

在整个研究过程中,系统无需人类明确指示应添加的模块,也无需人类预先设定实验执行的先后顺序。

所有的研究方案均源自Agent自主提出的假设,这些假设随后会通过设计并执行真实实验来进行检验,最终只有那些在实验中得到验证的方案才会被采纳。

如果把这些记录隐去不看,单从研究过程本身来审视,很难断定其与一位机器人专业的博士生在实验室中所开展的研究工作之间,究竟存在何种本质性的区别。

更值得关注的是,Agent能够依据具体任务的特点,主动对其研究路线进行调整。

在针对Zip-tie任务的实验过程中,该智能体很快便观察到端到端训练策略并未取得良好效果。

原因其实很直接,因为该项实验任务本身的持续时间相当漫长:

在一次失败的实验结束后,机器人首先需要将整个场景恢复到初始状态,只有这样,后续新一轮的实验才能顺利启动。以GPU插拔这个具体任务为例,机器人需要先执行从主板上拔出GPU的操作,接着将其移动到指定位置并完成放置动作,最终还要让自身的机械臂和末端执行器回到初始待命状态。整个过程涉及多个需要精密力控的环节,因为任何操作上的失误都有可能直接损坏GPU底部的针脚,导致不可逆的硬件损伤。

再比如在扎带穿扎这类任务中,智能体需要判断“扎带的尾部是否已经成功穿过了扎带头”这一关键状态。为了得到准确的答案,Agent甚至自主设计了一套视觉检测方案:它同时利用顶部和侧面两个摄像头观察目标区域,分别进行图像分割处理;只有当两个视角都确认扎带尾端已经穿过时,系统才会判定实验成功。通过这样的设计,整个检测过程的延迟被控制在150毫秒以内,这已经非常接近人类的视觉反应速度。

当这类自动复位、自动评分以及安全控制的相关接口被调试并验证无误后,它们便会被封装成标准API,供后续研究直接调用。这意味着,在后续的实验中,Agent已经无需再操心底层实验流程的实现细节。至此,真实世界才真正转变成了一个可以被系统性地反复调用、并持续进行优化的“API”。

第一步,找到剪刀;第二步,将其抓起;第三步,接着寻找扎带;第四步,将其移动到相应位置;第五步,对准目标位置;第六步,从而成功完成剪切操作。

整个操作流程涉及多个连续的阶段,其固有的复杂性使得单纯依赖端到端策略的学习变得极具挑战。鉴于此,Agent随后自主调整了其研究路线。

随后,借助一个被称为VLA的视觉-语言-动作模型完成粗略的定位步骤,进而调用并执行相应的工具API,以实现更为精细的操作。

从某种意义上讲,该智能体甚至自主地完成了一次系统架构的设计工作。

如果要寻找一个最为直接的参照物,那么便是Karpathy前不久所提出的Autoresearch。

两套系统的底层运作机制在核心层面展现出高度一致性,其目标皆在于驱动AI系统自主生成研究假设,随后依据这些假设部署实验流程,并系统性地对比实验所得数据,最终依据对比分析所揭示的规律,持续优化后续的研究路径。

二者之间的核心差异在于,Autoresearch工作于数字环境当中。在这一层面上,程序代码执行过程中出现错误时可以进行修正,而实验流程遇到问题时也能够重新启动。

算力资源几乎是唯一的成本投入,而ENPIRE系统则首次成功将这套研究循环引入物理世界当中。机器人并非代码。

对于一台已经撞坏的机械臂,无法通过执行Git Revert操作来恢复其状态。在真实物理世界当中,摩擦力、物体位置以及光照条件均处于持续变化的过程,同时传感器数据也会产生不可避免的噪声。

ENPIRE的核心价值在于,它借助自动复位、自动评分以及安全控制接口,将原本处于混乱状态的物理世界,成功转化为智能体能够反复调用的标准化实验环境。

对于Agent来说,真实世界第一次拥有了类似软件开发环境的可迭代性,这为Agent提供了通过实验与反馈进行持续优化的能力。

另一个值得关注的发现,是所谓的“物理Scaling”。

在过去,大模型所采用的Scaling范式主要聚焦于参数、数据与算力这三个核心维度;而ENPIRE系统则开启了对实验数量进行Scaling的新范式。

论文当中,8个Agent各自占用一台机器人,同时对不同路线进行探索。

在多智能体并行测试模式下,Pin Insertion任务达到99%成功率所需的时间,从单机器人模式下约1.5小时显著缩短至40分钟。

在过去那段时期,大模型的发展主要依赖于扩大GPU集群的规模。那么ENPIRE所扩展的,实际上是机器人的舰队。

87fc1f79ab5641f00648e8935b9a44c9.png

当然,这种Scaling并不便宜。

随着Agent数量的增加,每个Agent都需要对其他Agent所编写的代码进行阅读,对其他人所获得的发现进行理解,并对相关经验进行总结,以及同步相应的知识。

因此,Token消耗的增长速度超过了机器人数量的增加,对此论文专门提出了两个量化指标来度量这种额外代价:

Mean Robot Utilization :机器人有多少时间真正用于实验;

Mean Token Utilization :系统每分钟究竟烧掉多少Token。

在审视这一系列进展之后,我们或许能够更深入地理解Jim Fan何以如此振奋。原因在于,他和他的团队观察到,研究这项活动本身,其运作模式与迭代效率,也开始呈现出与AI模型类似的、可被系统性扩展与加速的特征。

甚至经验传承的过程都开始显现,在论文当中,包含了一个颇具趣味性的实验:

Agent在Pin Insertion任务的实验过程中所积累的经验,被整理并形成一份文字总结,随后被直接整合到GPU Insertion任务的提示词之中。

最终的结果表明,后续研究的效率获得了显著提升。需要强调的是,在此过程中所迁移的内容既不是模型权重,也不是训练数据。

而是一份研究笔记,其内容与人类实验室在知识传承过程中所开展的工作高度相似。

大平行的最后一块拼图

今年5月,Jim Fan出席了红杉资本举办的AI Ascent大会并发表了演讲,提出了名为“大平行”(The Great Parallel)的分析框架,并指出了当前机器人技术领域的核心发展趋势,即其正在加速经历大语言模型已经走过的演进路径。

作为一项持续的演进过程,语言模型的发展轨迹目前正呈现出四个逐步深化的核心阶段:首先,通过大规模语料库完成基础能力的构建,这一过程被称为预训练;其次,在人类反馈的指导下进行对齐微调,以使模型的输出更符合预期;随后,引入强化学习以显著提升其复杂推理能力;而最新的前沿,则是赋予模型自主研究的能力,从而使其能够通过实验迭代来驱动自身的持续进化。

d29534a0bc7bd9de15a79a54fdbdf466.png

机器人技术领域同样在遵循这一演进路径,只是每一步的承载介质已从文本数据转变为物理世界本身。

针对这三个演进阶段,英伟达均已部署了相应的解决方案。在预训练阶段,推出了EgoScale项目,该项目基于两万小时的人类第一视角视频,来对运动先验进行训练;同时还发布了DreamZero,这是一款全新的世界动作模型(WAM),该模型借助视频世界模型对下一个物理状态进行预测,以此来替代语言模型对下一个token的预测方式。在对齐阶段,则运用少量经过传感化处理的人类数据,来执行动作微调操作。

ENPIRE系统首先实现了将物理世界转化为可编程接口的目标。这意味着,智能体能够像调用软件功能一样,去控制一台真实的机器人,并获取实验结果的反馈。在系统实现层面,其核心价值在于解决了机器人研究过程中最棘手的“复位”问题:在一次失败的实验结束后,机器人首先需要将整个场景恢复到初始状态,只有这样,后续新一轮的实验才能顺利启动。以GPU插拔这个具体任务为例,机器人需要先执行从主板上拔出GPU的操作,接着将其移动到指定位置并完成放置动作,最终还要让自身的机械臂和末端执行器回到初始待命状态。整个过程涉及多个需要精密力控的环节,因为任何操作上的失误都有可能直接损坏GPU底部的针脚,导致不可逆的硬件损伤。再比如在扎带穿扎这类任务中,智能体需要判断“扎带的尾部是否已经成功穿过了扎带头”这一关键状态。为了得到准确的答案,Agent甚至自主设计了一套视觉检测方案:它同时利用顶部和侧面两个摄像头观察目标区域,分别进行图像分割处理;只有当两个视角都确认扎带尾端已经穿过时,系统才会判定实验成功。通过这样的设计,整个检测过程的延迟被控制在150毫秒以内,这已经非常接近人类的视觉反应速度。当这类自动复位、自动评分以及安全控制的相关接口被调试并验证无误后,它们便会被封装成标准API,供后续研究直接调用。这意味着,在后续的实验中,Agent已经无需再操心底层实验流程的实现细节。至此,真实世界才真正转变成了一个可以被系统性地反复调用、并持续进行优化的“API”。

然而,作为整个发展序列的第四个关键阶段,即自主研究能力,在物理世界中始终缺乏可执行的实现方案。ENPIRE系统的核心目标,正是成功实现了这一步的跨越。

一作 肖文力 (Wenli Xiao)在推特上写道:

Autoresearch终于离开了沙盒,进入了具身世界。

肖文力是卡内基梅隆大学机器人系博士生,其导师为石冠亚(Guanya Shi),此前在英伟达GEAR实验室完成了为期两年的实习工作。他是这篇论文的四位共同一作之一。

0648ce0e04b4ef9b4a66855aa3eb0161.png

肖文力、谢佳(Jia Xie)、Tonghe Zhang以及Haotian Lin,四位均来自卡内基梅隆大学。论文的三位共同指导教师则分别为:来自英伟达的范麟熙(Jim Fan)与朱玉可(Yuke Zhu),以及来自卡内基梅隆大学的石冠亚。

1e98aca3dc10ffe4db4bd4557fe4b04d.png

Jim Fan在推特平台上发布了对ENPIRE的描述性推文,该描述堪称整篇论文中最具视觉化特征的总结性表述。

为8个Codex agent配置了一个机器人舰队、多块GPU以及充足的token资源,随后人类研究员退出了整个实验流程。机器人集群随即开始自主运作:它们通过视觉线索定位目标,自动恢复实验场景,逐步训练操作技能,实时调整控制框架,查阅相关文献,相互讨论实验方案,对失败进行反思,识别遇到的障碍,并直接在硬件平台上重新尝试。为Codex agent建立了与物理世界的交互接口,最终成功实现了智能行为的涌现。

ENPIRE项目将把其全部代码与设计文档在开源许可下向公众发布。因此,在理论层面,每位研究者或爱好者都能够基于此框架,构建与部署属于自己的“自运行机器人实验室”。

前提条件在于,需要满足相应的硬件与算力资源需求,即具备购置8台机器人、英伟达GPU以及运行coding agent所需token的能力。

 

来源:英伟达开始搞机器人自己研究机器人那套了… | 具身研习社

声明:本文来自具身研习社,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/