出品:具身释界
机器人学习一直有一个很现实的问题:数据太贵了。
如果我们想让机器人学会一个新任务,通常需要真人拿着遥操作设备,一遍又一遍地控制机器人完成任务。每一个动作都要在真实硬件上采,每一个场景都要布置,每一个任务都要重新示教。对于简单任务还好,一旦任务变成长时序、双臂协作、接触丰富的操作,数据采集成本就会迅速上升。
但反过来看,人类操作数据其实非常容易获得。
一个人戴上第一视角眼镜,拿起面包、倒一杯水、整理杯子、打开水龙头,几分钟就能采到大量自然的操作视频。问题是:这些人类视频真的能直接教会机器人吗?
这就是这篇论文 HumanEgo: Zero-Shot Robot Learning from Minutes of Human Egocentric Videos 想解决的问题。
它的目标非常直接:
能不能只用几分钟人类第一视角视频,不用任何机器人示教数据,就训练出一个可以直接部署到真实机器人上的策略?
更进一步,它不是先用人类视频预训练,再用机器人数据微调;也不是需要大规模互联网视频和超大模型。HumanEgo 想做的是一条更“轻”的路线:
一个人戴着 Aria glasses 采任务视频,系统把人类操作转成可迁移的手-物交互表示,然后直接训练机器人策略。
论文 Fig.1 很直观地展示了这个思路:左边是人戴着第一视角眼镜做任务,中间是把视频转成 interaction-centric representation,再训练一个 flow matching policy,右边则是机器人在不同环境和不同硬件上直接执行任务。