OMG多模态人形机器人运动生成框架发布：一句话或一段音乐即可操纵机器人完成全身动作

2026年06月30日 11:41

本文共计3840个字，预计阅读时长13分钟。

来源/具身研习社责编/TouziXiaohu 投资小狐

现阶段下，大多数人形机器人的运动控制方面还局限于有参考才能进行动作的被动跟踪模式。

机器人只能机械地重复那些提前录入的动作轨迹，而无法自主生成全新的动作，这就导致其很难适配日常灵活的人机交互场景。

为了解决这一行业痛点，清华大学MARS实验室推出了OMG全模态人形运动生成框架，创新性地打造出由生成大脑以及跟踪小脑所构成的分层控制方案。

团队搭建了千小时级专属多模态机器人数据集，借助扩散模型构建了通用运动生成网络，从而让机器人得以实时响应文本、音频、人体动作以及组合指令，自主生成稳定可执行的全身运动轨迹。

实测结果显示出，OMG不仅在多项性能指标方面领先于主流模型，而且还具备了大模型所专属的规模缩放、小样本泛化以及零样本模态组合能力，从而为人形机器人通用智能控制的落地提供了一整套开源方案。

论文地址：https://arxiv.org/abs/2606.10340

项目主页：https://tsinghua-mars-lab.github.io/OMG/

开源代码：https://github.com/Tsinghua-MARS-Lab/OMG

作者单位：清华大学 MARS 实验室

一、行业所面临的核心痛点在于，人形机器人目前尚且缺少自主交互的能力。

目前主流人形机器人的运动跟踪技术高度依赖于外部预设的参考动作，因此不能够理解人类多样化的交互意图，也无法依据文字、音乐以及人体姿态来自主创作新的动作，只能够被动地执行既定程序，这就从根本上限制了人形机器人的智能化与通用性，使得其难以适配生活化、开放式的交互场景。

为了破解这一行业所面临的核心难题，研究团队专门量身打造了OMG全模态运动生成体系。整套方案依托于两大核心模块来进行构建，其中千小时级多模态机器人数据集OMG-Data得以提供高质量的训练素材，自研OMG-DiT生成网络负责开展多模态动作的创作工作，搭配成熟的HoloMotion全身跟踪器，从而形成了从意图理解、动作生成到落地执行的完整闭环，成功实现了人形机器人的多模态智能自主控制。

二、OMG-Data：千小时级可执行多模态动作数据
高质量、符合物理约束的标准化动作数据，是支撑人形机器人通用能力的核心底座。在现阶段下，人类公开动作数据来源较为杂乱，骨架规范也不统一，因此绝大多数人体动作无法直接迁移至实体机器人，这就存在严重的落地断层。
为了保证数据的物理可行性，所有候选动作均进入仿真环境来完成完整轨迹推演工作，由跟踪器实时执行并对机身高度、倾斜角度、连续跌倒帧数、关节极限等关键指标开展校验，从而筛除违背动力学规则、跟踪失效的样本。最终所构建的OMG-Data数据集总时长达到了1174.66小时，其中包含1166.6小时文本标注动作、958.77小时人体参考动作以及191.6小时音频配对动作。所有数据无需二次修正，就可以直接用于实体机器人训练工作，这就补齐了人形运动生成领域“数据规模不足、机器人可执行性差”两大核心短板。

高质量、符合物理约束的标准化动作数据，是支撑人形机器人通用能力的核心底座。在现阶段，人类公开动作数据在来源方面所呈现的杂乱状态以及骨架规范所存在的不统一问题，使得绝大多数人体动作无法直接迁移至实体机器人，从而造成了严重的落地断层。

为此，研究团队构建起了一套完整并且标准化的数据清洗流水线。该团队首先对AMASS、LAFAN、舞蹈、语音手势配对等海量公开动作素材开展了整合工作，并且对损坏帧、异常关节角度、时序错位等无效样本进行了剔除处理。随后借助通用动作重定向技术GMR，把SMPL人体模型、视频重建人体、FBX动画等异构动作数据统一映射至宇树G1机器人所专属的动作空间。针对没有文本标注的动作片段，研究团队在MuJoCo仿真环境当中渲染多视角动作画面，运用VLM完成了细粒度时序语义标注工作，并且依据文本边界、音乐乐句以及滑动窗口完成了长序列切分工作，以此适配模型进行短时预测的训练方式。

为了保证数据的物理可行性，所有候选动作均进入仿真环境来完成完整轨迹推演工作，由跟踪器实时执行并对机身高度、倾斜角度、连续跌倒帧数、关节极限等关键指标开展校验，从而筛除违背动力学规则以及跟踪失效的样本。最终所构建的OMG-Data数据集总时长达到了1174.66小时，其中包含1166.6小时文本标注动作、958.77小时人体参考动作以及191.6小时音频配对动作。所有数据无需二次修正，就可以直接用于实体机器人训练工作，补齐了人形运动生成领域“数据规模不足、机器人可执行性差”两大核心短板。

三、OMG-DiT：可以进行拓展并且实现轻量化的DiT运动生成主干网络
三、OMG-DiT：可以进行拓展并且实现轻量化的DiT运动生成主干网络

OMG-DiT 是整套框架的核心创新，它运用「共享主干网络 + 轻量化模态适配器」的解耦设计。模型把通用人形运动先验与多模态条件输入进行了分离，无需对主干网络开展重新预训练，仅借助新增少量适配模块就能够快速接入全新控制模态，从而极大降低了通用人形机器人的拓展与迭代成本。

整套系统运用了生成-跟踪的分层架构，分工清晰并且实现了高效协同。上层OMG-DiT作为运动生成大脑，以历史运动状态、文本、音频以及人体参考动作等条件为基础，实时地预测未来60帧宇树G1的全身参考轨迹；底层HoloMotion跟踪器负责将所生成的轨迹转化为关节控制指令，从而完成了机身平衡维持、抗扰与跟踪等物理执行任务。

模型直接在宇树G1原生125维机器人动作空间当中完成了训练以及生成的工作，无需额外的人体-机器人转换编码器。网络主体以DiT为基础构建去噪主干，结合RoPE旋转位置编码以及时序自注意力机制，从而精准地对全身运动的时序关联开展了建模。在训练阶段借助随机模态丢弃策略，配合推理阶段的无分类器引导，成功实现了单模态与多模态组合指令的灵活切换。

针对三类核心原生控制模态，研究团队设计了差异化的特征注入方案。文本指令借助冻结T5-Base编码器提取语义特征，以全局上下文Token的形式，经交叉注意力机制逐层注入DiT网络；音频以及人体参考动作属于帧对齐类信号，经MLP特征映射后，通过FiLM调制模块逐帧优化运动特征，从而分别成功实现了音乐节奏精准匹配以及人体姿态高效复刻的能力。

该框架在模态拓展能力方面具备了极强的性能。以 Pico VR 关键点遥操作等全新交互场景为例，仅需对零初始化 FiLM 适配器进行配置工作即可完成接入，主干网络训练权重得以完全保留，进而依托少量样本开展微调工作就能够适配全新任务，同时不会破坏模型所习得的通用运动先验。在推理阶段，用户可以自定义多模态引导参数，灵活调节文本语义、音频节奏以及人体姿态的权重配比，从而实现训练数据中从未出现的多指令协同运动生成。

四、实验对极致生成性能以及通用基础模型能力开展了全方位验证工作
。

研究团队从横向性能对比、下游小样本迁移以及基础模型特性验证这三个维度出发，开展了全面并且系统的实验评测工作。所有模型输出轨迹均在仿真环境当中由真实跟踪器执行校验，同步统计运动生成质量、机器人跟踪稳定性、跌倒率等多维指标，从而全方位验证OMG框架的综合性能与泛化优势。

在多模态生成对比实验当中，OMG得以在各类任务中均取得最优表现。在文本驱动任务当中，OMG-XL模型FID指标低至6.03，R-Precision@1达到65.43%，机器人跌倒率仅为0.78%，其语义匹配精度以及物理稳定性均显著优于GENMO、HYMotion、Kimodo等主流模型；

在音频驱动舞蹈任务当中，模型的音频匹配FID_k指标达到了40.46，全程并未出现跌倒失效的情况，其可以精准跟随古典以及流行等不同风格的音乐来生成流畅的全身动作；

在人体姿态重定向任务方面，模型MPJPE误差仅为18.84，相较于GMR、NMR、OmniRetarget等传统方案，能够在复刻人体细节姿态的同时，输出高度稳定、机器人可以精准跟踪的运动轨迹。
。

下游微调实验充分验证了模型所具备的优异迁移能力。在全新数据集适配任务当中，仅运用1%的AMASS-CMU数据对预训练模型进行微调，即可取得媲美全量数据从零训练的效果；在Pico关键点遥操作全新模态任务当中，基于预训练权重初始化的模型，其性能大幅优于随机初始化模型，这充分证明主干网络所沉淀的通用运动先验具备了极强的跨场景以及跨模态泛化能力。