4亿参数“小脑”开源:HoloMotion-1 弥补人形机器人短板

2026年07月02日 18:10
本文共计4195个字,预计阅读时长14分钟。
来源/具身研习社 责编/XingzheWujiang 行者无疆

本文作者是余柯,排版工作由曹若曦来进行,出品方为机器人产业应用。

最近在讨论人形机器人方面,公众往往更加关注其“大脑”:它能不能听懂人话,能不能识别物体,能不能规划任务。但真正使得机器人在现实世界站稳、转身、下蹲、挥手、踢腿甚至跳舞的,往往不是大脑,而是“小脑”。

这里的“小脑”并非生物学意义上的器官,而是机器人所运用的底层运动控制模型。它会对机器人自身状态、参考动作以及速度或姿态目标开展接收,随后输出关节级控制指令,从而让数十个自由度得以在毫秒级时间内实现协同运作。人说出“走过去拿杯子”时,大脑负责理解杯子所在位置以及路线如何规划;而小脑负责确保机器人每一步不会摔倒、上肢和躯干动作不会相互干扰、脚底接触保持稳定以及整体动作连续自然。

地平线开源的HoloMotion-1,其核心价值就在这里:它并非是去重新制造一个聊天机器人,而是对人形机器人的运动控制模型开展了做大以及做快的处理工作,并尝试把它做成可以复用的基础模型。

01

什么是机器人“小脑模型”?

传统机器人控制通常选用分层架构来开展设计:任务规划位于上层,轨迹规划处于中层,底层控制器则负责电机力矩或关节位置的控制。这种架构的优点在于具备较好的可解释性以及稳定性,缺点在于面对复杂全身动作时所需要的工程量会变得极大。例如机器人要从站立切换到蹲下,再伸手、转身并恢复平衡时,躯干、髋、膝、踝、肩、肘、腕都要实现同步的变化。每增加一种动作,控制策略都可能需要重新进行调参。

小脑模型所采用的思路在于:让模型借助大量人体动作、仿真交互以及机器人状态信息来学习全身协调规律。它并不只是学习某一个动作,而是去学习一类动作的分布规律。HoloMotion-1的定位是人形机器人全身运动跟踪基础模型,即在给定参考动作之后,让机器人尽可能稳定且准确地对这些动作进行模仿并加以执行。

这与“大脑大模型”所承担的分工存在明显不同。其中,大脑主要偏向语义理解、推理以及规划方面,因此其运行频率可以维持在较低水平;而小脑则专注于连续控制、动态平衡以及实时反馈方面,其运行频率必须保持在很高水平。大脑可以慢半秒来思考清楚,而小脑不能慢半拍,否则机器人就已经摔倒了。

02

HoloMotion-1 带来了什么不同?

HoloMotion-1所展现出的差异主要体现在模型规模、数据来源以及端侧推理效率这三个方面。

以往众多人形机器人控制策略选用了MLP,也就是多层感知机。这种MLP虽然运算速度很快,然而对于长时序动作、复杂运动风格以及跨数据分布的表达能力却存在一定限制。HoloMotion-1运用MoE Transformer架构,将控制模型的参数规模提升至4亿量级,同时借助稀疏激活机制来有效控制计算量。简单来说,该模型拥有一个规模庞大的动作知识库,但在处理每一帧数据时只会调用其中少数高度相关的专家模块。

这张表格清晰说明了一个关键特点:HoloMotion-1并非简单认为参数规模越大就越好,而是强调总容量要大且单步计算量要小。其总参数达到4亿,单步实际激活约700万。相比传统小模型,它可以覆盖更为复杂的动作分布;相比普通密集大模型,它又不会把全部参数都计算一遍。

fcc36f095f6c54116e2e1bc7a2557b34.png

03

3f98aa26e64d230da2249be86e4a2cdd.png

MoE 和 KV-cache 为什么能让它跑到 300FPS?

MoE 所指的正是Mixture-of-Experts,中文通常将其译为专家混合。可以将其理解为一个由多个子网络所构成的系统。每当接收到一帧机器人状态时,路由器会首先判断当前状态更类似于哪类运动:走路、转身、下蹲、踢腿、手臂摆动,或者是多个动作的组合。随后仅激活少数专家来参与计算工作。这样一来,模型的总容量可以做到很大,但每一步的计算成本却能够保持在较低水平。

KV-cache 作为 Transformer 推理过程中所运用的缓存机制。Transformer 需要对过去一段时间的状态信息进行关注,才可以理解动作的连续性。如果模型在处理每一帧的时候都把过去所有状态信息重新计算一遍,那么计算量就会随着时间窗口的扩大而急剧上升。KV-cache 会把历史注意力中的 Key 以及 Value 存储起来,下一帧仅计算新增的状态信息,随后再与缓存进行交互。结果是模型保留了时序记忆,同时避免了重复计算。

这两者结合起来,便构成了 HoloMotion-1 的实时性基础:MoE 可以减少每帧所要计算的参数数量,KV-cache 可以减少每帧对历史信息进行重复计算的量。因此它得以在机器人端侧计算模块上达到约 200–300Hz 的推理速度。

但这里需要避免一个误解:300FPS并不等同于机器人电机以300Hz频率直接执行所有控制指令。论文中真实机器人控制环固定为50Hz,而模型推理速度的提升则意味着系统具备了更多实时计算余量,这些余量可以用于状态估计、通信、安全检查以及控制缓冲方面。端侧高速推理的价值,并非为了技术炫技,而是借助降低闭环延迟,让动作得以更加稳定且及时地执行。

至于它与芯片之间的关系,能够概括为这样一句话:模型结构决定了“要少计算什么内容”,芯片则决定了“剩余计算能够执行得多快”。MoE架构、KV-cache机制、低精度矩阵计算、内存带宽以及算子优化这些因素共同决定了最终的帧率。公开资料并未将300FPS的实现归因于某一颗具体芯片,因此更准确的表述应当是:这是模型结构、推理工程和端侧算力协同作用的结果。

04

零样本迁移到底省了什么成本?

c26c02a4a458fee0726c6336df508bb1.png

“零样本迁移”这一概念容易被误解为无论什么机器人、在什么场景下都不需要开展训练。这种理解并不准确。HoloMotion-1当前所明确的能力,是对未见过动作以及动作来源进行泛化,并且在特定真实人形平台上完成了直接部署验证。它并非万能控制器,也不意味着更换任意机型之后都能即插即用。

即便如此,它仍能够成功实现对三类成本的显著降低。

第一,这能够降低动作采集的成本。传统控制策略往往依赖于高质量的MoCap,也就是动作捕捉数据。虽然MoCap精度较高,但是采集成本较高且覆盖范围有限。HoloMotion-1借助大量野外视频(即在真实、非受控的自然环境中拍摄的视频)对动作开展重建,随后运用MoCap以及自有数据补充高质量监督,从而使动作多样性得以更容易扩展。

第二,这能够降低专项训练成本。过去做一个舞蹈、下蹲、爬行或武术动作,往往需要单独开展采集、训练、调参以及仿真验证工作。基础小脑模型的意义在于,它把大量动作的共性先行学习掌握好,新动作更多借助参考轨迹和重定向进入系统,而不是每次都从零开始进行训练。

第三,这能够降低真机试错的成本。人形机器人真机训练的代价较高,摔倒一次就可能损坏关节、电机或结构件。如果模型能在仿真中学习更多扰动、摩擦、质量偏差以及动作延迟,再迁移到真机,整机厂就可以把更多风险前置到仿真阶段。

当然,零样本迁移并不等同于免于验证。在真实部署过程中,仍然需要对机器人动力学参数、关节限位、执行器性能、传感器延迟、安全策略以及场景边界这些方面开展工程校准工作。

对于整机厂商而言,最大的利好在于缩短从“能走”到“能做动作”的路径。开源模型、训练流程以及评测框架可以提供一个公共基线,从而减少重复造轮子。厂商能够先运用预训练策略来进行离线动作复现、在线遥操作或演示动作,随后再逐步叠加自有硬件适配以及安全层。

对于零部件企业而言,利好在于能够形成更为真实的控制负载。电机、减速器、传感器、计算模组以及电池企业过去常常选用单项指标来宣传性能,然而人形机器人真正所需要的是系统级闭环表现。小脑模型普及之后,零部件可以围绕真实动作任务来开展评估:关节响应是否足够迅速,编码器噪声是否会影响平衡,计算模块能否稳定实现低延迟运行,散热和功耗能否支撑长时间运动。

对于开发者和高校而言,开源所具备的意义会更加直接:当拥有了可复现的基线之后,他们便能够围绕动作数据、仿真环境、迁移学习、安全约束以及跨机型适配这些方面来继续开展研究。人形机器人并不缺乏概念,所缺乏的是能够得到验证、能够得到复用的工程起点。

05

哪些场景可能率先受益?

高速小脑模型最先得以推动的,未必是复杂家务劳动,而是那些对全身运动表现要求较高、同时对复杂物体操作要求相对较低的场景。

第一类是展演、文旅以及商业导览服务。这些应用所涵盖的跳舞、挥手致意、迎宾接待、讲解演示以及队列行进等动作,其核心要求在于动作表现自然流畅、身体保持稳定并且能够实现快速编排调整。HoloMotion-1这类模型可以让机器人更快生成多样化动作序列,从而有效减少对逐个动作开展调参的工作。

第二类是远程操控以及训练方面。人们可以借助VR、惯性动捕或遥操作设备向机器人输入身体动作,而小脑模型则负责将这些人体动作转换为机器人能够执行的全身控制指令。这种方式适合危险环境巡检、应急演练以及专业训练。

第三类所对应的是工业以及仓储领域之中的移动辅助。在短期之内,人形机器人未必能够独立完成复杂装配任务,然而稳定行走、转身、蹲起、搬运时的姿态切换以及上肢协同这些方面,会直接影响到它进入半结构化场景的速度。

从更长远的视角来看,真正的通用人形机器人需要让“大脑”和“小脑”实现合流:其中大脑对任务开展理解,小脑则要保证动作得以可执行,感知系统会对环境变化进行实时修正,而安全层则负责对边界进行约束。HoloMotion-1的价值并不在于让机器人突然具备通用智能,而是把长期以来被低估的底层运动控制推进到了基础模型阶段。

06

结语

人形机器人商业化所面临的瓶颈,不仅仅在于“听懂人话”,也体现在“身体听话”方面。HoloMotion-1的开源信号十分明确:运动控制正在从手工调参、小模型策略,迈向大规模数据、基础模型以及端侧实时推理。

它的亮点并不局限于4亿参数,也不局限于300FPS,而是成功地将大容量模型、稀疏计算、时序缓存、混合动作数据以及真机部署这些要素整合进了同一条链路之中。对行业而言,这意味着机器人“小脑”开始具备了可共享、可评测、可迭代的基础底座。

但也要冷静看待:当前 HoloMotion-1 主要对“模仿任意姿态”的第一阶段问题开展了解决,面向任意指令、复杂地形以及跨机型泛化仍是后续挑战。人形机器人要实现真正落地,还要跨过硬件可靠性、安全规范、成本控制以及场景闭环。小脑变强,是必要条件,并非全部答案。

来源:4亿参数“小脑”开源:HoloMotion-1 给人形机器人补上了哪块短板? | 具身研习社

声明:本文来自具身研习社,版权归作者所有。文章内容仅代表作者独立观点,不代表爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。
0
TAGS: []

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 爱力方

https://www.agentren.cn/