作者:Yuanxq 出品:具身智能研究室
最近人形机器人 motion tracking 这条线很热。
SONIC 在讲大规模 motion tracking,HumanoidGPT 在讲 20 亿帧动作数据,HoloMotion-1 在讲野外视频和运动基座。顺着这个趋势看,很容易形成一个直觉:人形机器人动作数据越多越好,动作库越大越接近通用。
但 LIMMT 这篇论文反过来问了一个更扎心的问题:
如果动作数据里混进了大量不物理、重复、太简单的片段,更多数据会不会反而把 tracking policy带偏?
这篇最值得看的结论也很直接:在 AMASS 上,作者筛出来的 不到 3% 数据,就能超过全量数据训练出来的 tracking policy;10% 左右的数据,反而是更好的 sweet spot。
这个结果不一定能直接推广到所有任务,但它提醒我一件事:人形机器人动作数据正在进入“质量筛选”阶段。 后面要拼的不只是数据规模,还要看谁能把真正有训练价值的数据筛出来。

LIMMT 真机 G1 动作跟踪效果
01这篇论文在解决什么问题?
论文信息
论文标题:LIMMT: Less is More for Motion Tracking
机构:Tsinghua University、GalBot、Shanghai Jiao Tong University、Peking University、Shanghai Qi Zhi Institute
项目链接:https://giraffeguan.github.io/limmt/
时间:2026 年 6 月 8 日
LIMMT 的问题定义很清楚:motion tracking 里,什么样的动作数据才真的有价值?
过去我们聊动作数据,经常先看规模。AMASS 有多少小时,Motion-X++ 有多少 clip,HumanoidGPT 用了多少帧,SONIC 扩到了多少数据。
但 physics-based humanoid motion tracking 跟视觉/语言模型不太一样。语言里有噪声文本,大模型可能还能靠规模冲掉一部分;人形机器人这里,如果参考动作本身不物理,policy 会真的被带坏。
比如:
• 人体动作从视频里恢复出来,脚可能在地上滑;
• 身体可能短时间“漂”在空中;
• 关节速度可能超过机器人硬件极限;
• 身体可能穿进地面;
• 很多 clip 只是站立、慢走、重复动作,对训练贡献有限。
这些数据进入 motion tracking 训练之后,已经不只是“有点噪声”。它会影响 RL 早期的优化轨迹,让 policy 朝错误的方向收敛。
所以 LIMMT 的核心判断是:
motion tracking 里,数据质量会决定 policy 一开始被推向哪个优化盆地。
这句话我觉得很关键。因为很多时候训练后期看起来只是指标差一点,本质上可能是前期数据把策略带到了一个不好爬出来的位置。
02LIMMT 的方法:GQS 三阶段筛数据
LIMMT 提出的筛选框架叫 GQS:General Quality Selection。
它做了三件事,从三个维度定义动作数据质量:
• Physics feasibility:物理可行性
• Diversity:动作多样性
• Complexity:动作复杂度
论文的核心流程图如下:

GQS 三阶段动作数据筛选流程
我把它翻译成更直白的话:
第一步,先把明显不物理的数据过滤掉。
第二步,把剩下的动作放到一个语义运动空间里,保证动作类型足够分散。
第三步,在相似动作里优先保留更有训练价值、更高动态的片段。
第一阶段:先过滤“不物理”的动作
这一阶段最像给 motion data 做体检。
论文会把候选动作放进刚体仿真环境里回放,然后计算一个物理分数:
S_phy = 100 - Σ w_i L_i
这里的 L_i 是不同类型的物理问题,主要包括:
• Floating:身体长时间没有物理支撑,像飘起来;
• Ground Penetration:身体或脚穿进地面;
• Velocity Violation:关节速度超过硬件限制;
• Foot Sliding:脚明明接触地面,却持续滑动;
• Self Collision:身体自碰撞;
• Jerk:动作变化过猛。
有意思的是,论文没有把所有问题一刀切。
Floating 和 Foot Sliding 更像毒性噪声,应该重罚。 因为这类数据会让 policy 学到错误的接触关系。
但高速度、高 jerk 不一定全是坏事。有些高动态动作本来就更激烈,删太狠反而会把有训练价值的动作删掉。
这点很重要。数据清洗的难点,是别把动作洗成“干净但无聊”,还要区分:
哪些是物理错误,哪些是高动态信息。
第二阶段:用运动嵌入保证多样性
过滤完之后,还会遇到第二个问题:剩下的数据可能高度重复。
动作数据集里往往有大量站立、普通走路、轻微转身。这些动作当然有用,但重复太多之后,继续加数据的边际收益很低。
LIMMT 用 Harmonic Motion Embedding(HME) 给动作建一个语义空间。它不只是看关节角的欧氏距离,而是希望捕捉动作结构和节奏上的相似性。
这样后面做采样时,就能尽量覆盖不同类型的动作,避免被“数量最多的普通走路”淹没。
第三阶段:复杂度加权采样
最后一步是选子集。
普通 farthest point sampling 会倾向于选“分布上离得远”的样本,LIMMT 在这个基础上加入复杂度权重。
它会优先选择:
• 跟已经选过的动作差异大;
• 同时动作本身更复杂、更动态;
• 能给 policy 更强学习信号的片段。
论文里复杂度大致由关节速度和加速度能量来衡量。直觉上也很好理解:站着不动当然稳定,但它给 tracking policy 的训练信息很少;跳跃、转身、舞蹈、单腿动作,更容易把策略的能力边界拉开。
03最反直觉的结果:3% 数据打过全量 AMASS
这篇最出圈的地方,就是下面这张图。

LIMMT 数据比例实验:少量高质量数据超过全量数据
红线是成功率,蓝线是 tracking error。
论文的结果很直接:
• GQS 3% 数据,成功率已经超过全量 raw data baseline;
• GQS 10% 数据,整体效果接近最优;
• 继续增加数据,收益没有线性上升;
• 随机抽 3% 会崩,说明关键不在“少”,而在“筛得对”。
这点不能误读。
这句话不能理解成“以后 motion tracking 只需要 3% 数据”。它真正想说的是:如果数据里有大量低价值或错误片段,全量训练不一定是最优选择。
论文在 AMASS 上的主结果也很明显:

LIMMT 在 AMASS 上的主结果对比
以 Any2Track 为例:
• 原始全量 AMASS:Success Rate 约 94.2%
• GQS 3%:Success Rate 约 95.6%
• GQS 10%:Success Rate 约 95.9%
TWIST2 上也类似:
• 原始全量数据:Success Rate 约 82.5%
• GQS 10%:Success Rate 约 86.8%
更狠的是随机 3%。
随机少量采样效果非常差,说明这篇论文的重点并非“少数据训练”。它真正的贡献是:
把少量数据筛成高信息密度数据。
04为什么“更多数据”会伤害 tracking?
我觉得这里可以讲得更直白一点。
人形 motion tracking 的训练目标,是让机器人尽量跟参考动作,同时还要满足动力学约束。
如果参考动作本身质量很差,policy 会同时接收到两种冲突信号:
• 奖励函数让它追参考动作;
• 物理世界又告诉它这个动作不可执行。
久而久之,policy 可能学到一些很奇怪的折中:姿态看起来在追,但接触关系不对;或者为了追不可行参考,把身体推到容易失稳的位置。
这和普通监督学习里的 noisy label 有点像,但机器人这里更麻烦。因为错误标签不只是让预测值偏一点,它会改变整个闭环系统的动作分布。
这也是为什么 LIMMT 一直强调 early optimization trajectory。
好的数据会影响最终指标,也会在训练早期就把策略推到更稳定、更有物理意义的方向。
换句话说:
坏动作数据不是“没贡献”,它可能有负贡献。
这对现在的人形机器人数据路线很有启发。
我们现在看到越来越多大规模动作数据来源:MoCap、视频恢复、遥操作、合成视频、世界模型 rollout、甚至自动搜索出来的轨迹。数据入口越多,质量问题越会被放大。
后面真正有价值的工作,可能不只需要把数据池做大,还要建立一套能长期运行的数据筛选、评分和修复机制。
05真机结果:10% GQS 数据上了 Unitree G1
论文不只在仿真里做实验,也把 GQS 选出来的数据训练出的 tracker 部署到了 Unitree G1。
真机结果里,作者展示了中国功夫、舞蹈、单腿跳、抱箱子等动作:

LIMMT 在 Unitree G1 上的真实动作跟踪结果
定量结果也能看出趋势:
LIMMT 在 Unitree G1 上的真机跟踪结果表

平均来看:
• Full-data policy:SR 约 0.775
• GQS 10% policy:SR 约 0.850
• MPJPE 也从 0.1528 降到 0.1287
也就是说,在真机上,用 10% 筛选数据训练出来的策略,反而比全量数据更稳。
这对 Sim2Real 很有意义。因为真机部署最怕的,通常不是仿真指标差一点,而是策略在真实机器人上遇到未见扰动、接触误差、执行器限制时表现崩掉。
GQS 的筛选逻辑刚好会偏向两类数据:
• 去掉会造成 sim-to-real 偏移的明显不物理动作;
• 保留更能激发机器人能力边界的高动态动作。
这也是它能在真机上占便宜的原因。
06我怎么看这篇:它像 motion tracking 里的数据工程课
LIMMT 没有提出新的大模型,也没有试图做一个万能 controller。
它更像一篇数据工程论文。
但对现在的人形机器人来说,这类论文会越来越重要。因为大家已经开始意识到:模型结构、奖励函数、训练平台之外,数据本身也会成为核心瓶颈。
过去我们聊 motion tracking,常见问题是:
• tracking policy 怎么设计?
• reward 怎么写?
• teacher-student 怎么蒸馏?
• sim2real 怎么做?
• 高动态动作怎么训?
LIMMT 把问题往前推了一步:
在训练之前,先问这些动作到底值不值得被训练。
这个问题会影响很多路线。
比如 SONIC 这种大规模 motion tracking,最后一定会遇到数据质量问题。HumanoidGPT 这种超大规模动作数据,也需要判断哪些片段真正能提升 zero-shot tracking。BFM 这类行为基座路线,如果 latent space 里混入大量不物理动作,潜空间也可能被污染。
所以我觉得 LIMMT 的意义不只是“3% AMASS 打过全量 AMASS”。更重要的是,它提供了一个可复用的判断框架:
• 先看动作是不是物理可行;
• 再看动作之间有没有多样性;
• 最后看动作有没有足够动态复杂度。
这三个维度很朴素,但也很实用。
07也别把这篇神化
当然,这篇也不能被过度解读。
第一,它的结论主要建立在 motion tracking 场景下。对于更强交互、更复杂物体操作、更高层 VLA 数据,最优筛选标准可能不一样。
第二,“3%”不能当成通用常数。不同数据集、不同机器人、不同 tracker,最优比例都会变。论文后面也提出了 Adaptive Ratio Selection,说明作者自己也不想把 3% 写死。
第三,它现在主要还是规则式质量评估。未来更可能出现偏好模型、自动修复模型,甚至让世界模型参与判断动作数据是否物理可信。
但这些都不影响它的价值。
因为它抓住了一个越来越重要的趋势:
人形机器人进入大数据阶段之后,下一步一定是高质量数据阶段。
08写在最后
这篇 LIMMT 我觉得很适合单独写,是因为它把一个常被默认成立的前提拿出来重新检查:
动作数据越多,motion tracking 就一定越好吗?
它的回答很克制,也很有冲击力:不一定。
在人形机器人上,动作数据不是堆进来就完事。你要知道哪些动作不物理,哪些动作重复,哪些动作虽然少但非常有训练价值。
如果未来人形机器人真的要靠大规模动作数据、野外视频、遥操作数据和生成数据来扩展能力,那么 LIMMT 这类工作会变成基础设施的一部分。
很多论文会追求更大的模型,但 LIMMT 把注意力拉回了训练入口。
有时候,真正影响训练结果的,是你终于开始认真问:
这条数据,真的值得机器人学吗?
