π0.7模型如何实现多任务统一学习,推动机器人真正具备“举一反三”能力

2026年04月23日 15:33
本文共计7986个字,预计阅读时长27分钟。
来源/OFweek机器人网 责编/爱力方

把一件皱巴巴的T恤平铺在桌上,拎起两个袖口对折——人类三秒搞定,机器人却可能抓空、扯歪、甚至把衣服揉成一团。难的不是“对折”,而是第一次面对这件T恤、这个摆放角度时,就能稳稳完成,无需针对每件衣服重新训练。

这是今天机器人研究者每天都在面对的现实。

近年来,RT-2、Helix、GROOT N1 等 VLA 模型在真实机器人任务上展现了令人印象深刻的泛化能力——它们能理解自然语言,能在多个任务间切换,甚至能泛化到未曾见过的物体。在语言和物体层面,它们已经足够“通用”。但当人们尝试将这些模型应用于更广泛的实际场景——面对各不相同的机器人平台、琳琅满目的操作任务,以及五花八门的用户指令时——很快发现:“通用”能力并不等于“好用”。

同一个“开门”任务,换一款机械臂,动作序列可能瞬间失效;同一个指令换种说法,模型就可能愣住。更棘手的是,即便训练数据里有大量高质量演示,模型学到的更多是“照葫芦画瓢”——一旦遇到从未出现过的任务组合(比如“先用勺子舀米,再按电饭煲开关”),往往僵在原地。

这是为什么?因为当前模型普遍缺乏组合泛化能力。就像GPT能从“英译法”和“输出JSON”推导出“输出JSON的翻译结果”一样,机器人也需要能将“打开”“放置”“关闭”等基础技能灵活重组,来完成全新任务。然而,绝大多数机器人模型尚未展现出这种能力。

于是,一个自然的思路是:给模型更丰富的上下文,让它理解“做什么”和“怎么做”。但该加什么?加多少?怎么加?

理想情况下,我们希望一个通用模型能适配多种机器人、理解多样指令,并在高灵巧任务上达到专用模型的精度。可传统方法要么计算成本高得离谱,要么需要海量标注,要么不现实。

既要“通才”,又要“专精”——这正是机器人基础模型面临的两难。

一、从π0到π0.7:机器人通用模型的能力跃升

近日,Physical Intelligence团队在论文《π0.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities》中,提出了新一代机器人通用基础模型π0.7。该模型通过多模态上下文提示这一核心机制,仅需单一模型即可完成从精细操作到长时程复杂任务的各类工作,有效缓解了通用性与精细化难以兼顾的难题。

很多人一听到“新模型”,第一反应是参数量又翻了几倍。π0.7确实不小——总参数量约50亿,但它的聪明之处不在参数堆叠,而在如何利用上下文。

π0.7是基于π0.6的VLA架构与MEM记忆系统构建,核心升级是将上下文从简短任务文本扩展为更丰富的多模态信息:更具表达力的语言指令、交互片段元数据(速度、质量和失误标记等)以及视觉子目标图像。这使得模型能在多样化甚至非最优的数据上训练并持续提升性能。

先看它的网络架构:

VLM骨干网络:采用Gemma 3的40亿参数模型(内含一个4亿参数的视觉编码器),负责理解语言、图像和视频历史。其中,视觉编码器同样基于Gemma3 初始化,并沿用MEM 历史视频编码器的设计,对历史观测同时进行时域与空域压缩,无论输入多少帧历史画面,均输出固定数量的词元(token),极大提升了长时记忆的效率。

动作专家:一个8.6亿参数的流匹配Transformer模块,专门负责生成连续动作。

两者相加,π0.7的总参数量约50亿。但参数量从来不是重点——真正让π0.7与众不同的,是它通过四维多模态提示,学会了“看明白、听精确、记清楚、调灵活”:不仅能理解人说了什么,还能看懂目标长什么样、区分动作快慢好坏、适配不同机器人的控制方式。正是这套提示框架,让它能从海量混合质量的数据中萃取通用技能,实现开箱即用的组合泛化。

 

π0.7 模型架构示意图(PI论文,见参考资料)

二、四层提示:让模型不仅知道“做什么”,更知道“怎么做”

π0.7的核心设计理念,不是盲目堆叠更大的参数量或引入全新的网络架构,而是从上下文建模入手,通过丰富多模态提示信息,让模型能够区分数据质量、理解任务执行方式,并有效整合来自不同来源的数据。

 

π0.7 采用多样化提示进行训练(PI论文,见参考资料)

这套框架可支持四大类提示,但在具体任务中可按需组合,并非全部必选。我们先看一个典型场景 —— 假如你想让π0.7控制一台重型工业机械臂(UR5e)完成叠T恤——这台机器从未见过任何叠衣训练数据。你只需要给模型提供三样东西:

一句简洁的语言指令:“把T恤叠好”

一张子目标图像:叠好之后应该长什么样(可由轻量级世界模型生成)

几项元数据:“以较快的速度执行”“不要出现失误”

模型拿到这些提示,就能零样本完成叠衣任务。更令人惊讶的是,它会自己调整策略:源机器人上人类习惯倾斜抓取,但UR5e上它发现垂直抓取更稳。即便这台机器人从未叠过一件衣服,它也能完成。

为什么只用了三层提示就做到了?因为叠衣任务中控制模式可以沿用默认设置,无需显式指定。而π0.7实际总共支持四类提示,每类解决不同维度的歧义:

1)第一层:语言指令。 不仅包含顶层任务目标(如“把红薯放入空气炸锅”),还包含分步骤的子任务描述。这使π0.7能够理解和执行长时程的多阶段任务。

2)第二层:视觉子目标图像。 这是π0.7相比前代模型最关键的架构升级。模型可以接收一张目标状态的图像作为输入,从而获得精确的空间布局信息。在测试阶段,子目标图像可由一个轻量级世界模型根据语言指令生成,为模型提供视觉层面的泛化能力。加入子目标图像后,模型训练速度显著加快 —— 动作预测任务本质上变成了一个“逆动力学”问题,即从当前帧到未来帧之间反推动作。

3)第三层:交互元数据。 包含整体速度(以时间步表示的交互长度)、整体质量(1—5分评分)、失误标记等信息。

这使得π0.7能够从混合质量的数据中学习——即便是包含失败案例的低质量演示数据,只要配上恰当的元数据标注,也能被有效纳入训练。这不只解决了传统训练必须依赖高成本高质量数据的瓶颈,还让模型学会了区分“快”与“慢”、“好”与“差”的操作策略。在测试阶段,可以通过调整元数据,直接指示模型以高速、高质量、无失误的方式执行任务。

4)第四层:控制模式。 模型同时支持关节空间控制和末端执行器控制,通过文本标识符灵活切换,适配不同机器人本体的运动特性。当需要切换控制方式时,这一层提示就会派上用场。

整套流程将复杂的物理交互转化为“提示→推理→执行”的闭环,完美平衡了泛化能力、执行精度与数据效率。这套方法不是在黑暗中盲目摸索,而是让模型站在海量多样数据的基础上进行理解与推理。它只需要一个统一的多模态提示框架,就能整合来自不同机器人、不同控制方式甚至不同物种(人类演示视频)的数据源,做到了“一个模型管所有”。

三、实验验证:通用模型的涌现能力

为全面验证π0.7的能力,研究团队在多个维度上开展了系统实验,涵盖高灵巧操作(如叠衣物、制作意式浓缩咖啡)、长时程任务(如更换垃圾袋、使用空气炸锅)、指令遵循(在陌生环境中执行复杂语言指令)以及跨具身迁移(将技能零样本迁移至从未训练过的机器人平台)等多个实验维度。

实验结果表明:π0.7通过利用多样化数据源,结合多种上下文模态,实现出色的开箱即用性能、广泛泛化能力与更高效的迁移效果。

1. 开箱即用性能:通用模型不输专用微调

研究团队选取了两类任务进行对比:一类是来自π∗0.6 的强化学习专用模型任务(如图上半部分),评估指标为成功率和归一化吞吐量(以专用模型为基准,原始吞吐量为每小时成功次数);另一类是包括“机器人奥林匹克”在内的多项灵巧任务(如图下半部分),评估指标为任务完成进度。

 

π0.7开箱即用的灵巧操作能力(PI论文,见参考资料)

实验结果显示:同一套π0.7 模型在所有这些任务上的表现,均达到或接近 π∗0.6 或 π0.6 中经任务专属后训练的专用策略的水平。特别是在复杂衣物折叠与纸箱组装任务上,π0.7 的吞吐量高于经过强化学习训练的专用模型。

这表明,π0.7 具备开箱即用的灵巧操作能力,可直接完成大量高难度灵巧任务。

此前,即使是先进的通用机器人模型,在处理高灵巧度任务时通常仍需针对具体任务进行微调才能达到可用精度。而π0.7 在不进行任何任务专属微调的情况下,凭借单一模型即可达到与专用模型相当甚至更优的性能。

2. 复杂指令遵循:在未见环境中精准理解人类意图并执行

研究团队对π0.7的指令遵循能力进行了评估,并与前代模型π0.5和π0.6进行了对比。测试在4个未见过的厨房和2个未见过的卧室环境中进行——这些场景均未出现在训练数据中。每组测试要求机器人遵循包含3至6个步骤的指令序列完成特定目标,涵盖物品整理归位、与家具交互、清理洒落物等真实日常任务。

 

全新环境下的泛化指令遵循对比(PI论文,见参考资料)

实验结果显示:π0.7在所有测试场景上的指令遵循成功率均显著高于π0.5和π0.6,达到较高水平。此外,π0.7能够处理分布外的指代型指令,例如“拿起我会用来喝汤的物品”“拿起最大盘子里的水果”这类训练数据中未出现的非常规表述。当加入由轻量级世界模型生成的子目标图像后,指令遵循性能进一步提升,表明视觉子目标有助于增强模型对复杂语义的理解。

数据集偏差是指令遵循任务中的一项常见的核心难题:如果训练数据集中在某一特定行为模式上,模型可能忽略语言指令而盲目模仿数据中的模式。为测试π0.7是否能够克服这一问题,研究团队设计了两个“反向”任务:

反向清理餐桌:要求将垃圾放入收纳箱、餐具扔进垃圾桶(与训练数据中的常规行为相反)。

反向冰箱→微波炉操作:要求将食物从微波炉放回冰箱(该反向操作未出现在训练数据中)。

 

π0.7通过遵循指令打破数据集偏差(PI论文,见参考资料)

结果显示:π0.7在上述任务中的表现显著优于π0.5和π0.6,能够有效遵循与数据集偏好相矛盾的指令。值得注意的是,在“反向冰箱→微波炉”任务中,加入生成式子目标图像(π0.7 (GC))对任务成功起到关键作用。这表明π0.7具备较强的指令遵循能力,能够关注指令内容而非单纯模仿训练数据中的行为模式。

3. 跨具身迁移:零样本迁移至形态差异显著的机器人平台

研究团队评估了π0.7在跨具身场景下的任务迁移能力,即:将在一台机器人上训练获得的技能,迁移至另一台从未见过该任务的机器人上,且不进行任何额外微调。

实验设置:源机器人为轻量化固定式双臂机器人,用于采集叠衣训练数据。目标机器人为双臂UR5e系统(两台UR5e工业机械臂搭配Robotiq平行夹爪),该平台未提供任何叠衣任务的训练数据。两款机器人在尺寸、关节结构、自重、夹爪类型及安装位置等方面存在显著差异,因此目标机器人需要采用与源机器人完全不同的控制策略。

 

跨具身迁移涌现出适配目标机器人形态的操作策略(PI论文,见参考资料)

实验结果:π0.7在UR5e系统上成功完成了叠衣任务。观察发现,模型没有简单复制源机器人的操作轨迹,而是自主调整了策略:

撑袋任务:源机器人上人类操作员用一只手臂撑开袋子、另一只手臂放入物品;UR5e上π0.7利用更长的臂展,采用单臂拾取-放置策略完成。

叠T恤:源机器人上人类操作员以倾斜的末端执行器接近布料并按压;UR5e上π0.7采用垂直抓取方式,更适合该机械臂的安装布局和运动学特性。

与人类专家对比:为量化跨具身迁移的效果,研究团队招募了10名资深远程操作员(平均遥控操作经验375小时,处于经验前2%)参与对照实验。这些操作员在源机器人上经验丰富,但从未在UR5e上尝试过叠T恤。结果显示:人类操作员的任务完成进度为90.9%,成功率为80.6%;π0.7的任务完成进度为85.6%,成功率为80.0%。两者表现接近。

π0.7能够在无需任何任务专属微调的情况下,将高灵巧操作技能从轻量化、低成本平台迁移至形态差异显著的高负载工业机械臂。这一能力表明,该模型具备较强的跨具身泛化能力,可有效降低在复杂机器人平台上采集训练数据的成本与难度

4. 组合式任务泛化:通过语言引导完成未训练的全新任务

研究团队进一步评估了π0.7的组合式泛化能力,即将训练中习得的技能进行重组,以完成从未在训练数据中出现过的全新任务。这是机器人基础模型面临的一项关键挑战:已有模型虽能在语义层面泛化(如根据未见过的文本描述抓取物体),但真正完成需要多步骤、多技能组合的全新任务仍难以实现。

实验分为两个部分:短时程任务的开箱即用测试与长时程任务的语言引导学习。其中,长时程任务实验包含两个递进阶段:语言引导阶段和自主策略学习阶段。

1)短时程任务:零样本开箱即用

对于部分短时程任务,π0.7在未采集任何相关机器人数据的情况下,能够直接开箱即用完成。测试任务包括:按压法式压滤壶的压杆、往电饭煲中舀米、用布擦拭耳机或尺子、转动桌面风扇或齿轮组等。这些任务要求以全新方式操作不熟悉的物体,π0.7凭借其灵活组合技能的能力,仅通过语言指令或子目标图像提示即可完成。

2)长时程任务:语言引导与自主策略学习

a. 语言引导阶段

对于需要多阶段交互的长时程任务(如用空气炸锅烹制红薯,全程约5分钟),直接零样本完成的难度较大。研究团队利用π0.7的指令遵循能力,采用语言引导方式教模型执行新任务——类似向人类提供分步口头指导。

 

通过语言引导完成全新长时程任务(PI论文,见参考资料)

具体实验任务包括:

使用空气炸锅:将红薯放入空气炸锅并启动

取出空气炸锅食材:将食物从空气炸锅中取出

烘烤贝果:用烤面包机烤制贝果

上述任务的机器人训练数据均未包含对应操作片段(尽管人类视频或外部数据集中出现过类似家电)。人工通过分步指令引导机器人,例如“拿起红薯”“打开空气炸锅”“放入红薯”“关门”等。

实验结果显示:π0.7能够有效跟随语言引导完成这些从未见过的长时程任务。相比之下,前代模型(π0.5、π0.6)因指令遵循能力不足,难以跟上引导步骤,表现较差。当引入由轻量级世界模型生成的子目标图像后(π0.7 (GC)),任务执行效果进一步提升。

b. 从引导到自主:策略学习阶段

由于π0.7可被引导完成新任务,研究团队进一步利用引导过程中收集的分步指令数据,训练了一个高层语言策略网络。该网络能够自动将顶层任务目标(如“烹制红薯”)拆解为一系列子任务语言指令,并下发给π0.7执行。

 

通过引导学习全新自主能力(PI论文,见参考资料)

实验表明,通过这种方式构建的自主策略(π0.7 autonomous)在五个不同任务上的性能,与实时人工引导下的策略(π0.7 coaching)十分接近,且无需采集任何额外的遥控操作数据或底层动作数据。

能力总结:π0.7能够将训练中习得的技能进行重组,通过语言引导的方式完成从未训练过的长时程任务,并能将引导经验转化为自主执行能力。这种组合泛化能力与大语言模型从海量数据中组合不同概念的方式类似,为机器人学习提供了一条无需大量动作标注数据的新路径。

5. 广泛泛化能力:从多样化、混合质量的数据中有效学习

π0.7之所以能够实现较强的泛化能力,关键在于两点:大规模、高多样性的训练数据与精细的上下文提示。

π0.7的训练数据集包含:

机器人数据:由操作员通过遥操作设备在多种机器人平台(固定式/移动型、单臂/双臂)及多样环境(实验室、类家庭、真实家庭)中采集的数据、策略评估产生的自主运行数据(含失败案例)、人类干预数据(策略执行过程中由人工介入修正的轨迹数据)、开源机器人数据集;

非机器人数据:人类第一视角视频、互联网多模态数据(物体定位、视觉问答、纯文本任务等)等。

直接混合上述数据源并不能取得良好效果。不同来源的数据在策略质量、执行速度、成功率上差异巨大,朴素训练方式会使模型对数据中的不同模式取平均,产生次优行为。π0.7的解决方法是为每段数据标注详细的上下文信息(做什么、怎么做、做得好不好),让模型能够从混合质量的数据中有效学习。

 

关于元数据和任务多样性的实验结果(PI论文,见参考资料)

1)元数据的关键作用

研究团队以衣物折叠任务为测试基准,根据执行质量和速度将人类演示数据划分为四组:前30%、前50%、前80%以及全部数据。分别在使用元数据与不使用元数据的条件下训练π0.7模型(共8个模型)。

实验结果显示:

不使用元数据的模型:随着数据集规模扩大(平均质量下降),性能反而降低;

使用元数据的模型:即便数据集扩大导致平均质量下降,性能仍能随数据量增加持续提升。

这表明,片段元数据有效区分了不同质量与策略的数据,使π0.7能够从大规模、混合质量的数据中获益,并在测试阶段通过元数据提示激发出预期的行为模式(如高速、高质量、无失误执行)。

2)任务多样性的价值

研究团队进一步探究了任务多样性对泛化能力的影响。在控制数据总量相同的前提下,对比了三个模型在未见短时程任务上的表现:

完整π0.7:使用全部训练数据;

随机剔除20%数据:作为数据量对照;

剔除多样性最高20%数据:移除任务种类最丰富的部分。

结果显示:完整π0.7与随机剔除20%数据的模型,性能均显著优于剔除高多样性数据的模型。这证明π0.7能够有效利用高任务多样性的数据,并将其转化为在未见任务上的泛化能力提升。

四、从“专家”到“通才”,机器人的GPT时刻还在路上

π0.7 是一款统一的通用机器人基础模型,做到了三件事:开箱即用(不微调就能完成高灵巧任务)、听得懂人话(在陌生厨房里执行复杂指令)、会举一反三(把叠衣技能迁移到从未见过的机械臂上)。而这些能力的背后,不是什么惊天动地的网络架构革命,而是一套被反复验证的方法——多模态上下文提示。

这些能力背后,不是惊天动地的架构革命,而是一套被反复验证的方法——多模态上下文提示。给模型看目标图像、告诉它“快一点”还是“稳一点”、允许它从失败数据里学习……这些设计组合在一起,让π0.7能从海量混合质量的数据中萃取真正的通用技能。

能力边界:远非完美,但方向清晰

当然,π0.7仍有明显局限。训练集中见过的任务,成功率超过90%;完全没见过的任务,只有60%–80%。而且,由于数据太过庞杂,有时连研究者自己也分不清某个表现究竟是“记忆”还是“创造”——这是所有大模型在评估泛化能力时面临的共同难题。

下一步:让机器人在使用中进化

一个值得探索的方向,是利用π0.7高度可控的特性,在测试任务中边做边学——例如通过更细致的语言引导,甚至采用自主强化学习。这将使模型不再依赖静态数据集,而是越用越聪明。

从实际应用角度看,无论行为是真正全新的,还是已有技能的新颖组合,其价值是一样的:用户无需为每个新任务采集数据,只需通过提示即可指挥机器人执行。能够大规模实现这种组合泛化的模型,将彻底改变机器人学习范式——我们可以对机器人提示、引导、说明,而非必须采集昂贵的动作数据。

Physical Intelligence 联合创始人 Quan Vuong 曾将机器人领域的演进比作一个“剥洋葱”的过程:先从一个拥有大量常识知识的基础模型开始,建立“混合自治”系统,再持续部署到真实世界,让它每天变好一点点,最终在某一天突然发现它已经能够完全自主运行。π0.7 正是这一路径中的关键节点——它不是终点,而是从“单体专家”迈向“通用基座”的重要一步。

参考文献:

1. 论文:π0.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities

2. π0.7: a Steerable Model with Emergent Capabilities

       原文标题 : 一个模型搞定所有任务?π0.7如何让机器人真正学会“举一反三”

来源:一个模型搞定所有任务?π0.7如何让机器人真正学会“举一反三” | OFweek机器人网

声明:本文来自OFweek机器人网,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/