具身智能数据需要一套普通话

编者按：具身智能有三座大山需要跨越：模型、数据、量产。模型决定能力上限，量产决定能否走向现实，而数据连接着二者，是目前最难补齐的一环。

无论模型多先进、硬件多复杂，具身智能能否真正学会如何在真实世界中行动，最终都取决于是否拥有高质量、可规模、可复用的数据作为底层燃料。

数据从何而来、如何生成、如何使用，正在深刻影响技术路线的选择，也直接塑造着企业的商业化节奏，成为当下竞争中最关键的变量。

基于此，星河频率特别策划「具身智能数据专题」，系统拆解遥操作、仿真、UMI 等核心数据采集技术路径，梳理代表性玩家的技术取舍与商业逻辑，观察数据厂商如何参与构建这一轮具身智能的底层基础设施。

我们将持续跟踪这一核心领域的演进，剖析数据如何驱动智能进化，并探索行业突破瓶颈、构建协同生态的可能路径。

作者｜李沐蓉

最近，宿迁出现了一个很特别的场景。

一些制衣厂的工人、养老院护工、全职宝妈，头上都戴着一套数据采集设备，一边完成工作，一边记录自己的行为数据。

他们正在给机器人提供理解物理世界的「训练原料」。

这是京东在宿迁建立的全国首个具身智能数据采集社区，目前已经正式运行。

去年，全球人形机器人出货量接近 1.8 万台，灵巧手量产超过 2 万只，机器人从实验室走向了工厂车间，但量产从来不是终点，工厂里能动，不代表家庭里能用；能表演，不代表能理解真实世界。

问题的核心，指向了数据。

阿里云专家张敏英表示，要实现具身 AI 模型能力的突破，需要 1000 亿小时的数据。然而，当前全球高质量真实物理交互数据总量仅约 50 万小时，缺口超过 99.999%。

2026 年开年，千寻智能、灵初智能、鹿明机器人等公司陆续公布年度目标，冲击百万小时量级的有效数据采集。

制约机器人真正干活的核心瓶颈，已经从算法、算力，转向了数据。

具身数据生产体系分化的三条路径

当下，具身智能数据的生产体系，主要分化成了三条路径。

头部机器人厂商普遍选择自建数采体系，原因很简单：没有人比自己更清楚需要什么样的数据。

智元是国内布局最早的企业之一，2024年就在上海张江就搭建了约 4000 平方米的数据采集基地，每天 100 多台机器人同步训练，覆盖家居、办公、工业、餐饮、商超五大真实场景。

在这些场景中，机器人需要完成超过 200 类任务，从基础取放、移动搬运，到复杂工具使用与双臂协作，持续积累真实交互经验，目前日均可产出 3 万至 5 万条数据。

目前，智元万台量产机器人已经下线，随着部署规模的扩大，智元的数据飞轮将逐步运转起来，本体越多，数据越多；数据越多，模型越强，实现自我进化。

这种采集路径对机器人厂商来说，数据质量高，能与本体高度适配，数据更容易闭环。

但同样存在问题，真机采集成本高、周期长、效率低，在短时间内很难覆盖所有真实的场景，容易在垂直场景中建立深厚壁垒，却很难成为通用的数据底座。

对多数初创公司来说，这是一条昂贵且难以规模化的路。

因此，一批专门提供具身数据服务的公司开始出现，如光轮智能、觅蜂科技等公司。

它们不造机器人，而是专注于数据本身。

从任务设计、数据采集，到标注、仿真与评测，形成标准化的数据生产能力。

刚刚完成新一轮融资的光轮智能是其中比较受关注的代表玩家，在短短两个月内，估值从 10 亿美元飙升至超 20 亿美元，成为超过 80% 具身智能团队的选择。

光轮智能构建了一套「求解—测量—生成」三位一体的全栈自研仿真平台，让数据形成永不停止的学习循环，采集、评测、真实部署产生反馈、再回流推动下一轮数据生成。它不是一次性交付数据，而是持续产出越来越高质量的数据和评测能力。

目前已覆盖 25000+ 环境节点、100000+ 任务种类，累计交付超 150 万小时高质量数据。

但光轮更值得关注的，是它正在做的另一件事：参与定义行业规则。它将与英伟达、谷歌等四家国际顶尖机构，共同推动下一代开源物理AI仿真标准制定。

这揭示了这条路径真正的上限：数据服务商的天花板，不是能接多少订单，而是有没有能力从数据采集者变成标准的制定者。谁的评测体系、标注规范、数据格式成为行业默认标准，谁就从乙方变成了规则制定方。

第三条路径，则来自拥有真实世界场景的产业巨头。

京东开始入场，依托零售、物流、健康、工业、外卖、家政等真实业务场景，京东宣布计划建成全球规模最大、场景最全的具身智能数据采集中心，自研超高清可穿戴采集终端，将动员超 60 万人，累计采集超 1000 万小时优质数据。

宿迁那些头戴设备的工人，正是这个计划的第一批执行者。

相比实验室，真实业务场景具备几个不可替代的优势：

动作复杂度高

环境变化频繁

任务分布真实

但这条路真正关键的问题，不是能采多少，而是采来的数据，能不能流出去。

京东已经给出了自己的答案，4月发布了覆盖采、存、标、训、评、仿、测全链路的具身智能数据基础设施，并上线数据交易平台，目标是打造具身智能超级供应链，向行业开放数据与算力基础设施。

如果未来场景侧能够进一步开放，那么掌握真实物理交互环境的企业，或许会成为整个具身智能时代最稀缺的数据源头，因为这是任何实验室和仿真系统都无法复制的环境。

三条路径背后，其实对应着三种不同逻辑：

机器人厂商做闭环，数据服务商做效率，场景企业做规模。

数据供给正在快速增长，生产主体也越来越多元，但数据缺口仍然超过99%，问题在于，三条路径看似各司其职，新的数据孤岛也在同步产生。

为什么具身智能的数据无法通用？

具身数据孤岛产生，有一个根本原因，具身智能数据天然带有「身体属性」，与硬件本体深度绑定。

互联网文本天然通用，一段文字几乎所有语言模型都能使用，但具身智能数据不同。

同样是「抓杯子」这个动作，身高 1.2 米和 1.7 米的机器人，机械臂运动轨迹完全不同；五指灵巧手与两指夹爪，抓取策略也截然不同。

而当前具身智能的硬件形态，恰恰还处于百家争鸣阶段。手部是五指还是三指，关节是旋转执行器还是线性执行器，传感器是分布式还是集成式，各家尚未收敛。

同一个动作采集出来的数据，用在 A 机器人和 B 机器人的效果差异极大。这意味着，每家企业都必须围绕自己的硬件重新采集数据，每一套数据体系天然就是孤立的。

数据不是「通用知识」，而是身体经验。一旦硬件形态发生变化，原有数据的价值就会随之贬值乃至归零。

行业标准的缺失，则进一步放大了这一问题，数据无法流通。

从传感器接口、数据格式，到标注规范、质量评估、坐标系定义，各家体系都不一致。

智源研究院姚国才坦言，团队在训练模型时有大量时间都在做数据格式转化，转化完后涉及到许多标准定义的问题，比如坐标系定义不一样，还得再去做数据处理。

这不是个别现象，而是行业日常，这就意味着大家都在重复造轮子，资源出现重大浪费，研发效率也大打折扣。

一个可用的数据采集标准，至少需要解决三件事：传感器接口统一、标注规范统一、坐标系定义统一。目前行业对此虽然已有共识，但缺的是有足够话语权的执行主体来推动落地。

更现实的问题是，数据规模不等于数据质量。

不少企业强调拥有数百万小时的数据，但真正可用于训练的比例并不高。上海交通大学副教授李永露团队曾从约 12 万小时第一视角人类行为数据中筛选，最终真正适用于 VLA 预训练的数据不足 5000 小时，有效率不到 4%。

具身智能数据的核心壁垒，从来不只是采了多少小时，而是数据是否足够真实，是否足够干净，能否有效对齐，并且能否适配具体的模型与本体结构。

算法先进，硬件精良，如果没有好的数据支撑，一切都是空谈。

否则，海量数据不仅无法提升能力，反而可能让机器人学歪、学慢。

三重困境层层叠加，每个生产者都在生产数据，但是却没有通用数据产生。

结果是，各家重复采集，各家自建体系，各自训练模型，数据没有形成流动网络，而是被锁定在不同系统中。

数据孤岛由此造成，不是没有人在采集，而是每个人都在按自己的标准采集。问题已经看清，接下来是有没有人正在打通。

从各自采集到共同建设，行业开始打破数据孤岛

面对当下困境，仅仅依靠各家封闭式数据采集，很难支撑通用具身智能的发展，行业正从封闭走向开放。

企业层面，头部企业率先开源。

例如，智元开源 AgiBot World 百万真机数据集，核心目标是建立覆盖真实场景、真实任务、真实机器人平台的大规模开放数据基础。目前该数据集已登陆 GitHub、Hugging Face 和阿里魔搭社区。

乐聚同样开源 LET 数据集，开放超过六万分钟的高质量真机数据，并登顶全网开源具身数据下载榜首位。

企业主动开源，本质上并不只是共享资源，更是一种生态策略。

对于头部玩家而言，开放部分数据，吸引开发者、研究者与上下游企业进入生态，远比封闭积累更有长期价值。

但企业的自发行为终究有限，数据孤岛的问题，本质上并不是单一企业问题，而是系统性问题：

接口不统一、标注方式不同、质量标准缺失，仅靠少数公司开源，难以真正实现数据流通。

因此，行业层面的协同机制正在形成。

目前，多个具身智能数据集社区与工作组相继成立，联合企业、高校与研究机构，尝试推动数据标准化与开放协作。

不久前，由开放原子开源基金会发起、乐聚机器人牵头建设，联合 70 余家成员单位，成立了「开放原子具身智能开源数据集社区」，企业、高校、科研机构等多元主体共同参与。

信通院、上海 AI 实验室、百度、蚂蚁灵波、宇树等产学研核心单位悉数在列，核心目标直指一个问题：打破数据壁垒。

同时，「人工智能开源社区开源数据集工作组」也正式成立，将制定数据集的开源治理框架与质量评估标准，希望从源头定义数据的「度量衡」，逐步解决标准不统一、质量参差、开放共享难三大难点。

更重要的是，面对数据孤岛，国家层面的标准建设，成为关键变量。

今年初，我国首个覆盖全产业链、全生命周期的《人形机器人与具身智能标准体系（2026 版）》正式发布，对数据格式、接口规范、标注规则均作出系统规定。

4 月底，我国又在国际标准组织成功立项全球首项《人形机器人数据集》ISO 国际标准，开始尝试围绕数据采集、存储、标注与评估建立统一框架。

企业开始开源、行业开始协同、国家开始制定标准，做这些动作是因为行业已经意识到：如果没有统一的数据体系，机器人能力很难真正规模化演进。

标准化的意义，也远不止技术规范。

在产业早期，竞争往往是单点技术竞争；而当产业逐渐成熟，竞争的重点会转向：谁能定义规则。

历史上，类似的路径已经反复出现。

英伟达的成功，不只是芯片能力，还有 CUDA 生态标准，不仅提升 GPU 性能，更在芯片上建立起统一的软件生态与开发语言。

还有 Android 的成功，不只是系统本身，还有统一的接口规范，可以让无数硬件厂商和开发者能在同一套语言上协作，最终构建出一个没有人能绕开的生态。

具身智能今天正在经历同样的阶段：

从技术竞争，进入标准竞争。只有当数据真正形成「公共语言」，而不是各说各话，机器人才能真正进入现实世界。

原文标题 : 具身智能数据，需要一套“普通话”

通知

尊敬的用户

user

资讯

具身智能数据需要一套普通话

相关图文

这次AI热潮如何走向终局？褪去滤镜，别让故事战胜估值

Meta开始卖算力，机构的AI信仰变了吗？

“BAT”历史性同台！30亿美元“弹药”落定，可灵立下的5年IPO军令状，藏着资本对AI视频赛道的耐心上限

AI时代Token成为“统一度量衡” 业内呼吁合力解决计费不透明等问题

八部门推动工业互联网和算力基础设施同步建设宇树科技IPO注册获批

直击慕尼黑上海电子展：云端AI加速下沉至端侧

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

美股盘前：存储芯片股再度下跌，SK海力士、闪迪跌超5%；台积电Q2业绩超预期但股价跌3.85%；英伟达与日本企业扩大机器人合作

DeepSeek再启融资并筹划上市，国产大模型还将带来多少打新机会？

日本企业AI联盟拟采购近3万枚英伟达Rubin芯片，发力机器人生态建设

国产AI编程工具加速突围，ToCodex探索软件研发自主创新新路径

AIGC办公流水线重构：千问将简历写作、PPT制作与数据清洗拆解为可复制执行流程

科创50指数连续2个交易日下跌超4%，算力硬件板块持续低迷，850亿“中药茅”近日现久违涨停

世界机器人大会将至，机器人产业链景气度持续升温，多只个股频获机构调研

算力权益获客模式卷向中小银行，资产提升成新赛道

中国AI跑出加速度背后的四重底气

全栈开放的人形机器人开发底座发布，售价2.39万元起助力低成本开发

推荐专栏

爱力方

机器人大讲堂

下一篇

user

资讯

具身智能数据需要一套普通话

相关图文

这次AI热潮如何走向终局？褪去滤镜，别让故事战胜估值

Meta开始卖算力，机构的AI信仰变了吗？

“BAT”历史性同台！30亿美元“弹药”落定，可灵立下的5年IPO军令状，藏着资本对AI视频赛道的耐心上限

AI时代Token成为“统一度量衡” 业内呼吁合力解决计费不透明等问题

八部门推动工业互联网和算力基础设施同步建设 宇树科技IPO注册获批

直击慕尼黑上海电子展：云端AI加速下沉至端侧

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

美股盘前：存储芯片股再度下跌，SK海力士、闪迪跌超5%；台积电Q2业绩超预期但股价跌3.85%；英伟达与日本企业扩大机器人合作

DeepSeek再启融资并筹划上市，国产大模型还将带来多少打新机会？

日本企业AI联盟拟采购近3万枚英伟达Rubin芯片，发力机器人生态建设

国产AI编程工具加速突围，ToCodex探索软件研发自主创新新路径

AIGC办公流水线重构：千问将简历写作、PPT制作与数据清洗拆解为可复制执行流程

科创50指数连续2个交易日下跌超4%，算力硬件板块持续低迷，850亿“中药茅”近日现久违涨停

世界机器人大会将至，机器人产业链景气度持续升温，多只个股频获机构调研

算力权益获客模式卷向中小银行，资产提升成新赛道

中国AI跑出加速度背后的四重底气

全栈开放的人形机器人开发底座发布，售价2.39万元起助力低成本开发

推荐专栏

爱力方

机器人大讲堂

下一篇

八部门推动工业互联网和算力基础设施同步建设宇树科技IPO注册获批