HumanEgo:机器人不看机器人示教,只看人类第一视角视频就能学会操作

2026年06月15日 18:09
本文共计689个字,预计阅读时长3分钟。
来源/具身研习社 责编/MoRanShiguang 墨染时光

出品:具身释界

机器人学习一直有一个很现实的问题:数据太贵了。

如果我们想让机器人学会一个新任务,通常需要真人拿着遥操作设备,一遍又一遍地控制机器人完成任务。每一个动作都要在真实硬件上采,每一个场景都要布置,每一个任务都要重新示教。对于简单任务还好,一旦任务变成长时序、双臂协作、接触丰富的操作,数据采集成本就会迅速上升。

但反过来看,人类操作数据其实非常容易获得。

一个人戴上第一视角眼镜,拿起面包、倒一杯水、整理杯子、打开水龙头,几分钟就能采到大量自然的操作视频。问题是:这些人类视频真的能直接教会机器人吗?

这就是这篇论文 HumanEgo: Zero-Shot Robot Learning from Minutes of Human Egocentric Videos 想解决的问题。

它的目标非常直接:

能不能只用几分钟人类第一视角视频,不用任何机器人示教数据,就训练出一个可以直接部署到真实机器人上的策略?

更进一步,它不是先用人类视频预训练,再用机器人数据微调;也不是需要大规模互联网视频和超大模型。HumanEgo 想做的是一条更“轻”的路线:

一个人戴着 Aria glasses 采任务视频,系统把人类操作转成可迁移的手-物交互表示,然后直接训练机器人策略。

论文 Fig.1 很直观地展示了这个思路:左边是人戴着第一视角眼镜做任务,中间是把视频转成 interaction-centric representation,再训练一个 flow matching policy,右边则是机器人在不同环境和不同硬件上直接执行任务。

 

来源:HumanEgo:机器人不看机器人示教,只看人类第一视角视频就能学会操作? | 具身研习社

声明:本文来自具身研习社,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/