资讯

HumanEgo：机器人不看机器人示教，只看人类第一视角视频就能学会操作

2026年06月15日 18:09

本文共计689个字，预计阅读时长3分钟。

来源/具身研习社责编/MoRanShiguang 墨染时光

出品：具身释界

机器人学习一直有一个很现实的问题：数据太贵了。

如果我们想让机器人学会一个新任务，通常需要真人拿着遥操作设备，一遍又一遍地控制机器人完成任务。每一个动作都要在真实硬件上采，每一个场景都要布置，每一个任务都要重新示教。对于简单任务还好，一旦任务变成长时序、双臂协作、接触丰富的操作，数据采集成本就会迅速上升。

但反过来看，人类操作数据其实非常容易获得。

一个人戴上第一视角眼镜，拿起面包、倒一杯水、整理杯子、打开水龙头，几分钟就能采到大量自然的操作视频。问题是：这些人类视频真的能直接教会机器人吗？

这就是这篇论文 HumanEgo: Zero-Shot Robot Learning from Minutes of Human Egocentric Videos 想解决的问题。

它的目标非常直接：

能不能只用几分钟人类第一视角视频，不用任何机器人示教数据，就训练出一个可以直接部署到真实机器人上的策略？

更进一步，它不是先用人类视频预训练，再用机器人数据微调；也不是需要大规模互联网视频和超大模型。HumanEgo 想做的是一条更“轻”的路线：

一个人戴着 Aria glasses 采任务视频，系统把人类操作转成可迁移的手-物交互表示，然后直接训练机器人策略。

论文 Fig.1 很直观地展示了这个思路：左边是人戴着第一视角眼镜做任务，中间是把视频转成 interaction-centric representation，再训练一个 flow matching policy，右边则是机器人在不同环境和不同硬件上直接执行任务。

来源：HumanEgo：机器人不看机器人示教，只看人类第一视角视频就能学会操作？ | 具身研习社

声明：本文来自具身研习社，版权归作者所有。文章内容仅代表作者独立观点，不代表爱力方立场，转载目的在于传递更多信息。如有侵权，请联系 copyright#agent.ren。

TAGS: 机器人学习人类第一视角视频零样本学习交互表示数据采集成本

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

匿名

2026-06-09

·

846 浏览
LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

匿名

2026-06-26

·

790 浏览
通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

匿名

2026-06-18

·

788 浏览
富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

匿名

2026-06-26

·

612 浏览
世界模型到底在建模什么

匿名

2026-06-29

·

560 浏览
余承东发声，鸿蒙智能将迈向Agent时代

匿名

2026-06-12

·

543 浏览

通知

尊敬的用户

user

资讯

HumanEgo：机器人不看机器人示教，只看人类第一视角视频就能学会操作

相关图文

人形机器人有了通用运动小脑，这有什么用？

具身智能“大平行理论”会成真吗？

具身智能行业“卷”数据：质量优先成共识，多样性和流通性仍显不足

上海创智学院与上海交通大学联合智动未来提出MINT模型：让VLA从模仿轨迹走向理解意图

具身机器人研究全都错了？最新论文：不能只靠VLA和世界模型

首次纯人类视频预训练VLA实现灵巧操作，少量数据微调即可部署成功

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

算力新业务占比超两成行云科技上半年扣非净利润同比由亏转盈

欧盟计划投资114亿美元建设7座人工智能超级工厂

高盛：Meta广告业务已验证AI价值巨额资本开支仍是主要压力

今晚美国公布GDP，存储股普跌，SK海力士跌超3%，亚马逊财报前瞻：2000亿美元AI投资迎大考，Meta跌近9%，高通跌超5%

扎克伯格称卖算力换短期利润是愚蠢的

因存在滥用情况易引发安全风险智驾“小蓝灯”将被禁用新车不得安装老车无需拆除

字节跳动重组AI业务整合豆包、飞书和火山引擎

华为、小米等首批手机端侧AI备案名单公布行业回归终端生态

中国创新药国际化先行者携手金山办公，WPS 365开启新药研发AI协同

国家能源集团人工智能全域赋能，应用水平跻身行业前列

推荐专栏

爱力方

机器人大讲堂

下一篇

user

资讯

HumanEgo：机器人不看机器人示教，只看人类第一视角视频就能学会操作

相关图文

人形机器人有了通用运动小脑，这有什么用？

具身智能“大平行理论”会成真吗？

具身智能行业“卷”数据：质量优先成共识，多样性和流通性仍显不足

上海创智学院与上海交通大学联合智动未来提出MINT模型：让VLA从模仿轨迹走向理解意图

具身机器人研究全都错了？最新论文：不能只靠VLA和世界模型

首次纯人类视频预训练VLA实现灵巧操作，少量数据微调即可部署成功

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

算力新业务占比超两成 行云科技上半年扣非净利润同比由亏转盈

欧盟计划投资114亿美元建设7座人工智能超级工厂

高盛：Meta广告业务已验证AI价值 巨额资本开支仍是主要压力

今晚美国公布GDP，存储股普跌，SK海力士跌超3%，亚马逊财报前瞻：2000亿美元AI投资迎大考，Meta跌近9%，高通跌超5%

扎克伯格称卖算力换短期利润是愚蠢的

因存在滥用情况易引发安全风险 智驾“小蓝灯”将被禁用 新车不得安装 老车无需拆除

字节跳动重组AI业务 整合豆包、飞书和火山引擎

华为、小米等首批手机端侧AI备案名单公布 行业回归终端生态

中国创新药国际化先行者携手金山办公，WPS 365开启新药研发AI协同

国家能源集团人工智能全域赋能，应用水平跻身行业前列

推荐专栏

爱力方

机器人大讲堂

下一篇

算力新业务占比超两成行云科技上半年扣非净利润同比由亏转盈

高盛：Meta广告业务已验证AI价值巨额资本开支仍是主要压力

因存在滥用情况易引发安全风险智驾“小蓝灯”将被禁用新车不得安装老车无需拆除

字节跳动重组AI业务整合豆包、飞书和火山引擎

华为、小米等首批手机端侧AI备案名单公布行业回归终端生态