人形机器人有了通用运动小脑,这有什么用?

2026年06月22日 12:20
本文共计8619个字,预计阅读时长29分钟。
来源/OFweek机器人网 责编/LaosijiAming 老司机阿明

银河通用近期发布了一款名为AstraBrain-WBC 0.5的模型,该模型为仿人机器人平台配备了一个能够以零样本方式掌握新动作的Transformer控制器。

该模型的论文已被计算机视觉顶会CVPR 2026接收发表,其配套代码与数据集均已开源,为研究社区提供了可复现的研究基础。此模型的正式学术名称为Humanoid-GPT。

与文字领域的GPT类似,它同样尝试验证一个核心观点:通过将数据规模提升到足够大的程度,并将模型架构转换为Transformer,Scaling Law在物理世界中同样具有适用性。

在演示视频中,一台宇树G1机器人能够依据视频中人类的动作进行舞蹈动作模仿,其动作展现出良好的连贯性与流畅度。这一过程并非依赖预设的程序,也没有针对特定动作进行微调。论文中的量化数据同样具有说服力,显示其零样本运动追踪的成功率达到了92.58%,同时将推理延迟控制在了0.39毫秒。

什么是机器人"小脑",

跟"大脑"有什么区别

银河星脑对机器人的智能架构进行了分层设计,将其系统性地拆解为三个独立的层级。

大脑这一层级负责全局的感知与高层任务规划,能够准确感知并识别出前方的物体是一个箱子,并明确将箱子搬运至B区的核心任务。神经控制层则直接负责机器人肢体末端的精细操作,例如精确控制手指如何稳固地捏住一颗螺丝。处于架构中间层的小脑,其核心职责是协调全身的运动。这包括实时评估身体重心的位置,动态规划哪条腿率先迈出,精确计算手臂与躯干之间的配合方式,并严格控制整体的运动速度。

这种分工模式并非由银河通用所首创,而是大脑在自然演化过程中所形成的固有结构。

大脑皮层负责进行高层规划工作,脑桥将指令向下传递,而小脑则承担协调与执行的职责。长期以来,机器人行业面临的核心挑战正是小脑这一环节。

视觉大模型等技术的飞速发展,使得机器人的感知能力正以年为单位实现跨越式提升;与此同时,作为执行末端的灵巧手,其精细化程度亦在持续提升。然而,夹在这两者之间的运动控制层,始终缺乏一个通用的解决方案,使得双足人形机器人能够在任何姿态下都能稳定地站立、行走并执行指定动作。

以前的思路是,为了实现对每个动作的单独控制,需要为每个动作分别训练一个专用的控制器。例如,要教会机器人走路,就需要专门采集一批走路动作的动捕数据,并对这些数据进行关节角度的标注工作,然后运用强化学习来训练一个相应的策略;而要教会它跑步,则需要采集跑步动作的数据,标注并训练另一个独立的策略。

这种方法要求为每一种动作训练一个专用的控制器,而且每个控制器在切换场景后往往会失效。即使机器人学会了一套熟练的行走策略,一旦换到斜坡等不同地形上,这套策略可能就不再适用了。

AstraBrain-WBC 0.5 attempts to explore a different approach. The core question is whether it is possible to use a single model to handle all types of movement tasks, in a manner similar to how a GPT model handles various language-based tasks.

银河通用团队系统性地收集了人类动作捕捉领域几乎所有公开数据集,涵盖AMASS、LAFAN1、Motion-X++、PHUMA与MotionMillion,并自行采集了超过一千小时的动作数据。经过合并、筛选与增强处理后,得到了20亿帧已完成宇树G1关节空间重定向的动作数据。

在该领域先前的研究当中,规模最大训练集的量级大约为一亿帧左右。英伟达此前所开展的SONIC项目,其数据规模同样积累至约一亿帧。而银河通用所构建的数据集,其规模则达到了上述基准的两百倍之多。

02

Transformer接住

MLP撑不住的盘子

在此研究阶段,人形机器人运动追踪领域所依赖的主流架构为MLP。该架构在执行运动控制任务时存在一项固有局限:其每次仅能获取并处理单个时刻的状态信息片段。

步伐与重心之间的协调关系往往跨越十几帧甚至数十帧的时间跨度,而MLP架构在先天上难以对此类长距离依赖关系进行建模。为应对这一局限,只能采用将历史数据拼接到输入向量当中的临时方案来加以解决。

当在多模态、高动态的动作数据上进行训练时,MLP模型在参数量达到一定规模后,其性能提升的边际效益会变得越来越小。这与Transformer架构所依托的自注意力机制有着本质的区别。

模型在序列的每一个位置上,都能够同时“回望”此前任意长度范围内的历史帧,从而成功捕捉到“当前动作与32帧前的某个姿态”之间的内在关联。

在人形机器人领域,这种跨帧的运动连贯性会直接决定其行走动作能否呈现出人类的自然步态,以及舞蹈表现是否会突然出现僵硬或中断的现象。

银河通用的团队系统性地实施了清晰而严谨的消融实验。

在使用相同规模的20亿帧训练数据的情况下,MLP模型的损失曲线在训练约50,000步后便开始趋于平缓,进入平台期。相比之下,Transformer架构的损失曲线在训练超过200,000步后仍保持下降趋势。最终,这两种架构之间约0.02的损失值差距,在实际机器人平台上的体现,就是其行走步态是否具备自然的人类特征。

在训练过程中,MLP每次仅能处理单个时间步,若想覆盖整条长序列则需要进行N次循环。Transformer借助一次前向处理便能涵盖整条序列的所有位置,因此在20亿帧的数据规模下,训练吞吐量直接拉开了数量级的差距。

如果继续采用MLP模型,那么对于相同的20亿帧训练数据,其完成一轮完整训练所需的计算资源与时间将会显著增加,达到数倍之多。

在工程部署方面,团队实施了TensorRT编译以及针对C++推理流水线的专项优化。经过这些优化,模型在机器人上的实时推理延迟被成功压缩至0.39毫秒,从而使得整个运动控制回路能够以50Hz的频率稳定运行。与此前报道的TWIST系统的2.79毫秒延迟相比,这一延迟实现了约5倍的降低。值得注意的是,这一性能提升是在使用参数规模更大的模型时取得的,其主要归功于在算法层面采用的因果注意力机制,以及在工程实现上为融合MLP(多层感知机)算子所开发的专用计算内核。

03

300多个专家交给一个模型

鉴于高达20亿帧的原始数据规模,直接运用一个Transformer模型进行端到端训练在当前条件下并不可行。为此,团队采取了分而治之的策略:他们首先运用强化学习中的PPO算法,针对约300个不同的动作族群,分别训练出了总计384个专用的“运动专家”模型。

每个专家仅承担其自身风格动作的职责;走路专家不负责处理跳舞任务,而跳舞专家则不涉及冲刺动作。每个专家能够以极高的保真度执行其专属风格。

随后,采用DAgger蒸馏框架作为方法,使得一个统一的Transformer通才模型能够同时从这384个专家模型中开展学习。

384个专家所承载的知识被统一蒸馏到了一个拥有8040万参数的单一模型当中。经过蒸馏过程完成以后,在部署阶段便仅需依赖这一个大模型。

论文中的消融实验结果显示,簇类数量的设定需要保持在合理的区间之内,既不宜设置得过少,也不应设置得过多。

当簇的数量设置为128时,分配给每个专家的动作类型过于繁杂,导致单个专家的训练质量无法达到理想水平,进而使得经过蒸馏得到的通用模型性能也相应减弱。而当簇的数量增加至1024时,不同专家所提供的监督信号会产生相互干扰,使学生模型难以判断应主要遵循哪一个专家的指导。综合考虑,约384个簇是在当前数据规模下,在动作多样性、训练质量与计算成本之间取得的最优平衡点。

整个训练过程共耗用了约15,000个GPU小时。其中,约75%的计算资源被投入到专家模型的训练环节,该部分任务运行在RTX 4090 GPU上;而另外25%的资源则用于Transformer通才模型的蒸馏过程,其计算载体为H100 GPU。该成本在学术研究范畴内属于合理投入,在商业化部署场景中也具备经济可行性。

04

到底有没有用?

AstraBrain-WBC 0.5回答了三个问题。

◎ 第一,动作数据可以堆到20亿帧。

◎ 第二,Transformer架构具备处理该规模数据并持续从中学习的能力。

◎ 第三,该团队在工程部署层面实现了优化。他们采用了TensorRT编译技术,并针对C++推理流水线进行了专项优化。经过这些优化,模型在机器人上的实时推理延迟被压缩到了0.39毫秒,从而使整个运动控制回路能够以50Hz的频率稳定运行。与此前报道的TWIST系统的2.79毫秒延迟相比,这一延迟实现了约5倍的降低。值得注意的是,这一性能提升是在使用参数规模更大的模型时取得的。其主要归功于在算法层面采用了因果注意力机制,以及在工程实现上为融合MLP算子而专门开发的计算内核。

● 第一个,它是一个纯运动追踪模型。

论文原文已对此进行了明确阐述,后续的研究方向是与视觉-语言-动作模型实现对接,将视觉、触觉以及语言等多模态信息整合到系统当中。

当前阶段的AstraBrain-WBC 0.5模型,其感知与理解能力被严格限定在单一维度,即仅能处理关节角度信息。对于环境中的物体信息,例如地面上的箱子或桌面上的杯子,它没有感知能力。外部提供的运动序列数据被输入给它后,它会按照这些序列执行相应的动作,但系统并未接收到明确的指令来指明移动的目的地、需要操作的物品或具体的操作方式。从功能定位上看,它扮演的是执行协调角色的“小脑”,而非负责整体规划与决策的“大脑”。

● 另一方面,演示所选用的第二个环境是平整地面的空旷空间。这种设计一方面可以消除地形因素对机器人运动的干扰,另一方面也能确保测试过程的安全性。

在实验室环境中所展现出的高动态动作,与工厂里托盘堆叠、走道狭窄等实际作业场景之间,存在着显著的验证鸿沟。论文当中并未呈现针对非结构化环境的相关测试数据。

● 第三个,也是业界最关心的问题。

银河通用目前将主推的商业化方向确定为即时零售的机器人仓储场景,采用的是轮式底盘搭配双臂操作的技术方案。轮式底盘在实际应用中并不需要完成翻跟头或跳舞这类复杂的全身运动动作。因此,小脑GPT所具备的运动控制能力对于轮式机器人的实际商业价值究竟能有多大贡献,目前尚缺乏直接的量化数据来支撑这一判断。

小结

机器人运动控制领域针对缩放定律的验证工作已推进至20亿帧的数据规模。

这一验证结果在方法论层面为整个行业提供了指导:过去普遍认为,机器人的动作数据难以大规模积累,因而Scaling Law未必能够适用;而近期的研究工作则证实了其有效性,即通过Transformer架构并辅以足够庞大的数据规模,便能够开发出具备通用性的小脑模型。

机器人运动控制领域的小脑技术,已经从过去那种需要针对每个技能逐一调优的手工模式,演进到了一个可以通过规模化数据与算力投入来直接产出成果的工程化范式。从手工调优到规模化投入,这两种路径之间的本质差异,就在于能否实现系统性的规模扩展。

《自然》/《科学》期刊风格润色稿:

人形机器人拥有了通用的运动“小脑”,这将带来何种影响?

核心要点
银河通用近期发布了一款名为AstraBrain-WBC 0.5的模型。该模型为仿人机器人平台配备了一个能够以零样本方式掌握新动作的Transformer控制器,这意味着无需针对特定动作进行预先训练或微调,机器人便能直接执行新指令。该模型的论文已被计算机视觉顶会CVPR 2026接收发表,其配套代码与数据集均已开源,为研究社区提供了可复现的研究基础。此模型的正式学术名称为Humanoid-GPT。

研究动机与核心观点
与文字领域的GPT类似,它同样试图验证一个核心观点:通过将数据规模提升到足够大的程度,并将模型架构转换为Transformer,Scaling Law(规模定律)在物理世界中同样具有适用性。这为机器人智能的发展提供了一条新的可能路径。

功能演示与量化表现
在演示视频中,一台宇树G1机器人能够依据视频中人类的动作进行舞蹈动作模仿,其动作展现出良好的连贯性与流畅度。这一过程并非依赖预设的程序,也没有针对特定动作进行微调。论文中的量化数据同样具有说服力,显示其零样本运动追踪的成功率达到了92.58%,同时将推理延迟控制在了0.39毫秒。这一性能在实时控制领域具有显著意义。

系统架构设计
银河星脑对机器人的智能架构进行了分层设计,将其系统性地拆解为三个独立的层级。大脑这一层级负责全局的感知与高层任务规划,能够准确感知并识别出前方的物体是一个箱子,并明确将箱子搬运至B区的核心任务。神经控制层则直接负责机器人肢体末端的精细操作,例如精确控制手指如何稳固地捏住一颗螺丝。处于架构中间层的小脑,其核心职责是协调全身的运动。这包括实时评估身体重心的位置,动态规划哪条腿率先迈出,精确计算手臂与躯干之间的配合方式,并严格控制整体的运动速度。

仿生学依据
这种分工模式并非由银河通用所首创,而是大脑在自然演化过程中所形成的固有结构。大脑皮层负责进行高层规划工作,脑桥将指令向下传递,而小脑则承担协调与执行的职责。长期以来,机器人行业面临的核心挑战正是小脑这一环节。

技术背景与演进
视觉大模型等技术的飞速发展,使得机器人的感知能力正以年为单位实现跨越式提升;与此同时,作为执行末端的灵巧手,其精细化程度亦在持续提升。然而,夹在这两者之间的运动控制层,始终缺乏一个通用的解决方案,使得双足人形机器人能够在任何姿态下都能稳定地站立、行走并执行指定动作。

传统方法的局限
以前的思路是,为了实现对每个动作的单独控制,需要为每个动作分别训练一个专用的控制器。例如,要教会机器人走路,就需要专门采集一批走路动作的动捕数据,并对这些数据进行关节角度的标注工作,然后运用强化学习来训练一个相应的策略;而要教会它跑步,则需要采集跑步动作的数据,标注并训练另一个独立的策略。这种方法要求为每一种动作训练一个专用的控制器,而且每个控制器在切换场景后往往会失效。即使机器人学会了一套熟练的行走策略,一旦换到斜坡等不同地形上,这套策略可能就不再适用了。

新方法的探索
AstraBrain-WBC 0.5 尝试探索一条不同的道路。其核心问题是:是否可能使用一个单一模型来处理所有类型的运动任务,其方式类似于GPT模型处理各种基于语言的任务?这种统一模型的理念旨在打破传统“一动作一模型”的壁垒。

数据规模与架构革新
银河通用团队系统性地收集了人类动作捕捉领域几乎所有公开数据集,涵盖AMASS、LAFAN1、Motion-X++、PHUMA与MotionMillion,并自行采集了超过一千小时的动作数据。经过合并、筛选与增强处理后,得到了20亿帧已完成宇树G1关节空间重定向的动作数据。在该领域先前的研究当中,规模最大训练集的量级大约为一亿帧左右。英伟达此前所开展的SONIC项目,其数据规模同样积累至约一亿帧。而银河通用所构建的数据集,其规模则达到了上述基准的两百倍之多。在研究阶段,人形机器人运动追踪领域所依赖的主流架构为MLP(多层感知机)。该架构在执行运动控制任务时存在一项固有局限:其每次仅能获取并处理单个时刻的状态信息片段。步伐与重心之间的协调关系往往跨越十几帧甚至数十帧的时间跨度,而MLP架构在先天上难以对此类长距离依赖关系进行建模。为应对这一局限,只能采用将历史数据拼接到输入向量当中的临时方案来加以解决。当在多模态、高动态的动作数据上进行训练时,MLP模型在参数量达到一定规模后,其性能提升的边际效益会变得越来越小。这与Transformer架构所依托的自注意力机制有着本质的区别。模型在序列的每一个位置上,都能够同时“回望”此前任意长度范围内的历史帧,从而成功捕捉到“当前动作与32帧前的某个姿态”之间的内在关联。在人形机器人领域,这种跨帧的运动连贯性会直接决定其行走动作能否呈现出人类的自然步态,以及舞蹈表现是否会突然出现僵硬或中断的现象。银河通用的团队系统性地实施了清晰而严谨的消融实验。在使用相同规模的20亿帧训练数据的情况下,MLP模型的损失曲线在训练约50,000步后便开始趋于平缓,进入平台期。相比之下,Transformer架构的损失曲线在训练超过200,000步后仍保持下降趋势。最终,这两种架构之间约0.02的损失值差距,在实际机器人平台上的体现,就是其行走步态是否具备自然的人类特征。在训练过程中,MLP每次仅能处理单个时间步,若想覆盖整条长序列则需要进行N次循环。Transformer借助一次前向处理便能涵盖整条序列的所有位置,因此在20亿帧的数据规模下,训练吞吐量直接拉开了数量级的差距。如果继续采用MLP模型,那么对于相同的20亿帧训练数据,其完成一轮完整训练所需的计算资源与时间将会显著增加,达到数倍之多。

工程优化与部署
在工程部署方面,团队实施了TensorRT编译以及针对C++推理流水线的专项优化。经过这些优化,模型在机器人上的实时推理延迟被成功压缩至0.39毫秒,从而使得整个运动控制回路能够以50Hz的频率稳定运行。与此前报道的TWIST系统的2.79毫秒延迟相比,这一延迟实现了约5倍的降低。值得注意的是,这一性能提升是在使用参数规模更大的模型时取得的,其主要归功于在算法层面采用的因果注意力机制,以及在工程实现上为融合MLP算子所开发的专用计算内核。

训练方法与成本
鉴于高达20亿帧的原始数据规模,直接运用一个Transformer模型进行端到端训练在当前条件下并不可行。为此,团队采取了分而治之的策略:他们首先运用强化学习中的PPO算法,针对约300个不同的动作族群,分别训练出了总计384个专用的“运动专家”模型。每个专家仅承担其自身风格动作的职责;走路专家不负责处理跳舞任务,而跳舞专家则不涉及冲刺动作。每个专家能够以极高的保真度执行其专属风格。随后,采用DAgger蒸馏框架作为方法,使得一个统一的Transformer通才模型能够同时从这384个专家模型中开展学习。384个专家所承载的知识被统一蒸馏到了一个拥有8040万参数的单一模型当中。经过蒸馏过程完成以后,在部署阶段便仅需依赖这一个大模型。论文中的消融实验结果显示,簇类数量的设定需要保持在合理的区间之内,既不宜设置得过少,也不应设置得过多。当簇的数量设置为128时,分配给每个专家的动作类型过于繁杂,导致单个专家的训练质量无法达到理想水平,进而使得经过蒸馏得到的通用模型性能也相应减弱。而当簇的数量增加至1024时,不同专家所提供的监督信号会产生相互干扰,使学生模型难以判断应主要遵循哪一个专家的指导。综合考虑,约384个簇是在当前数据规模下,在动作多样性、训练质量与计算成本之间取得的最优平衡点。整个训练过程共耗用了约15,000个GPU小时。其中,约75%的计算资源被投入到专家模型的训练环节,该部分任务运行在RTX 4090 GPU上;而另外25%的资源则用于Transformer通才模型的蒸馏过程,其计算载体为H100 GPU。该成本在学术研究范畴内属于合理投入,在商业化部署场景中也具备经济可行性。

局限性与未来方向
● 一方面,论文原文已对此进行了明确阐述,后续的研究方向是与视觉-语言-动作模型实现对接,将视觉、触觉以及语言等多模态信息整合到系统当中。当前阶段的AstraBrain-WBC 0.5模型,其感知与理解能力被严格限定在单一维度,即仅能处理关节角度信息。对于环境中的物体信息,例如地面上的箱子或桌面上的杯子,它没有感知能力。外部提供的运动序列数据被输入给它后,它会按照这些序列执行相应的动作,但系统并未接收到明确的指令来指明移动的目的地、需要操作的物品或具体的操作方式。从功能定位上看,它扮演的是执行协调角色的“小脑”,而非负责整体规划与决策的“大脑”。● 另一方面,演示所选用的第二个环境是平整地面的空旷空间。这种设计一方面可以消除地形因素对机器人运动的干扰,另一方面也能确保测试过程的安全性。在实验室环境中所展现出的高动态动作,与工厂里托盘堆叠、走道狭窄等实际作业场景之间,存在着显著的验证鸿沟。论文当中并未呈现针对非结构化环境的相关测试数据。银河通用目前将主推的商业化方向确定为即时零售的机器人仓储场景,采用的是轮式底盘搭配双臂操作的技术方案。轮式底盘在实际应用中并不需要完成翻跟头或跳舞这类复杂的全身运动动作。因此,小脑GPT所具备的运动控制能力对于轮式机器人的实际商业价值究竟能有多大贡献,目前尚缺乏直接的量化数据来支撑这一判断。

总结与行业意义
机器人运动控制领域针对缩放定律的验证工作已推进至20亿帧的数据规模。这一验证结果在方法论层面为整个行业提供了指导:过去普遍认为,机器人的动作数据难以大规模积累,因而Scaling Law未必能够适用;而近期的研究工作则证实了其有效性,即通过Transformer架构并辅以足够庞大的数据规模,便能够开发出具备通用性的小脑模型。机器人运动控制领域的小脑技术,已经从过去那种需要针对每个技能逐一调优的手工模式,演进到了一个可以通过规模化数据与算力投入来直接产出成果的工程化范式。从手工调优到规模化投入,这两种路径之间的本质差异,就在于能否实现系统性的规模扩展。

来源:人形机器人有了通用运动"小脑",这有什么用? | OFweek机器人网

声明:本文来自OFweek机器人网,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。
0
TAGS: []

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/