具身智能数据需要一套普通话

2026年06月01日 17:31
本文共计4386个字,预计阅读时长15分钟。
来源/OFweek机器人网 责编/爱力方

编者按:具身智能有三座大山需要跨越:模型、数据、量产。模型决定能力上限,量产决定能否走向现实,而数据连接着二者,是目前最难补齐的一环。

无论模型多先进、硬件多复杂,具身智能能否真正学会如何在真实世界中行动,最终都取决于是否拥有高质量、可规模、可复用的数据作为底层燃料。

数据从何而来、如何生成、如何使用,正在深刻影响技术路线的选择,也直接塑造着企业的商业化节奏,成为当下竞争中最关键的变量。

基于此,星河频率特别策划「具身智能数据专题」,系统拆解遥操作、仿真、UMI 等核心数据采集技术路径,梳理代表性玩家的技术取舍与商业逻辑,观察数据厂商如何参与构建这一轮具身智能的底层基础设施。

我们将持续跟踪这一核心领域的演进,剖析数据如何驱动智能进化,并探索行业突破瓶颈、构建协同生态的可能路径。

作者|李沐蓉

最近,宿迁出现了一个很特别的场景。

一些制衣厂的工人、养老院护工、全职宝妈,头上都戴着一套数据采集设备,一边完成工作,一边记录自己的行为数据。

他们正在给机器人提供理解物理世界的「训练原料」

这是京东在宿迁建立的全国首个具身智能数据采集社区,目前已经正式运行。

去年,全球人形机器人出货量接近 1.8 万台,灵巧手量产超过 2 万只,机器人从实验室走向了工厂车间,但量产从来不是终点,工厂里能动,不代表家庭里能用;能表演,不代表能理解真实世界。

问题的核心,指向了数据。

阿里云专家张敏英表示,要实现具身 AI 模型能力的突破,需要 1000 亿小时的数据。然而,当前全球高质量真实物理交互数据总量仅约 50 万小时,缺口超过 99.999%。

2026 年开年,千寻智能、灵初智能、鹿明机器人等公司陆续公布年度目标,冲击百万小时量级的有效数据采集。

制约机器人真正干活的核心瓶颈,已经从算法、算力,转向了数据。

具身数据生产体系分化的三条路径

当下,具身智能数据的生产体系,主要分化成了三条路径。

头部机器人厂商普遍选择自建数采体系,原因很简单:没有人比自己更清楚需要什么样的数据。

智元是国内布局最早的企业之一,2024年就在上海张江就搭建了约 4000 平方米的数据采集基地,每天 100 多台机器人同步训练,覆盖家居、办公、工业、餐饮、商超五大真实场景。

在这些场景中,机器人需要完成超过 200 类任务,从基础取放、移动搬运,到复杂工具使用与双臂协作,持续积累真实交互经验,目前日均可产出 3 万至 5 万条数据。

目前,智元万台量产机器人已经下线,随着部署规模的扩大,智元的数据飞轮将逐步运转起来,本体越多,数据越多;数据越多,模型越强,实现自我进化。

这种采集路径对机器人厂商来说,数据质量高,能与本体高度适配,数据更容易闭环。

但同样存在问题,真机采集成本高、周期长、效率低,在短时间内很难覆盖所有真实的场景,容易在垂直场景中建立深厚壁垒,却很难成为通用的数据底座。

对多数初创公司来说,这是一条昂贵且难以规模化的路。

因此,一批专门提供具身数据服务的公司开始出现,如光轮智能、觅蜂科技等公司。

它们不造机器人,而是专注于数据本身。

从任务设计、数据采集,到标注、仿真与评测,形成标准化的数据生产能力。

刚刚完成新一轮融资的光轮智能是其中比较受关注的代表玩家,在短短两个月内,估值从 10 亿美元飙升至超 20 亿美元,成为超过 80% 具身智能团队的选择。

光轮智能构建了一套「求解—测量—生成」三位一体的全栈自研仿真平台,让数据形成永不停止的学习循环,采集、评测、真实部署产生反馈、再回流推动下一轮数据生成。它不是一次性交付数据,而是持续产出越来越高质量的数据和评测能力。

目前已覆盖 25000+ 环境节点、100000+ 任务种类,累计交付超 150 万小时高质量数据。

但光轮更值得关注的,是它正在做的另一件事:参与定义行业规则。它将与英伟达、谷歌等四家国际顶尖机构,共同推动下一代开源物理AI仿真标准制定。

这揭示了这条路径真正的上限:数据服务商的天花板,不是能接多少订单,而是有没有能力从数据采集者变成标准的制定者。谁的评测体系、标注规范、数据格式成为行业默认标准,谁就从乙方变成了规则制定方。

第三条路径,则来自拥有真实世界场景的产业巨头。

京东开始入场,依托零售、物流、健康、工业、外卖、家政等真实业务场景,京东宣布计划建成全球规模最大、场景最全的具身智能数据采集中心,自研超高清可穿戴采集终端,将动员超 60 万人,累计采集超 1000 万小时优质数据。

宿迁那些头戴设备的工人,正是这个计划的第一批执行者。

相比实验室,真实业务场景具备几个不可替代的优势:

动作复杂度高

环境变化频繁

任务分布真实

但这条路真正关键的问题,不是能采多少,而是采来的数据,能不能流出去

京东已经给出了自己的答案,4月发布了覆盖采、存、标、训、评、仿、测全链路的具身智能数据基础设施,并上线数据交易平台,目标是打造具身智能超级供应链,向行业开放数据与算力基础设施。

如果未来场景侧能够进一步开放,那么掌握真实物理交互环境的企业,或许会成为整个具身智能时代最稀缺的数据源头,因为这是任何实验室和仿真系统都无法复制的环境。

三条路径背后,其实对应着三种不同逻辑:

机器人厂商做闭环,数据服务商做效率,场景企业做规模。

数据供给正在快速增长,生产主体也越来越多元,但数据缺口仍然超过99%,问题在于,三条路径看似各司其职,新的数据孤岛也在同步产生。

为什么具身智能的数据无法通用?

具身数据孤岛产生,有一个根本原因,具身智能数据天然带有「身体属性」,与硬件本体深度绑定

互联网文本天然通用,一段文字几乎所有语言模型都能使用,但具身智能数据不同。

同样是「抓杯子」这个动作,身高 1.2 米和 1.7 米的机器人,机械臂运动轨迹完全不同;五指灵巧手与两指夹爪,抓取策略也截然不同。

而当前具身智能的硬件形态,恰恰还处于百家争鸣阶段。手部是五指还是三指,关节是旋转执行器还是线性执行器,传感器是分布式还是集成式,各家尚未收敛。

同一个动作采集出来的数据,用在 A 机器人和 B 机器人的效果差异极大。这意味着,每家企业都必须围绕自己的硬件重新采集数据,每一套数据体系天然就是孤立的。

数据不是「通用知识」,而是身体经验。一旦硬件形态发生变化,原有数据的价值就会随之贬值乃至归零。

行业标准的缺失,则进一步放大了这一问题,数据无法流通。

从传感器接口、数据格式,到标注规范、质量评估、坐标系定义,各家体系都不一致。

智源研究院姚国才坦言,团队在训练模型时有大量时间都在做数据格式转化,转化完后涉及到许多标准定义的问题,比如坐标系定义不一样,还得再去做数据处理。

这不是个别现象,而是行业日常,这就意味着大家都在重复造轮子,资源出现重大浪费,研发效率也大打折扣。

一个可用的数据采集标准,至少需要解决三件事:传感器接口统一、标注规范统一、坐标系定义统一。目前行业对此虽然已有共识,但缺的是有足够话语权的执行主体来推动落地。

更现实的问题是,数据规模不等于数据质量。

不少企业强调拥有数百万小时的数据,但真正可用于训练的比例并不高。上海交通大学副教授李永露团队曾从约 12 万小时第一视角人类行为数据中筛选,最终真正适用于 VLA 预训练的数据不足 5000 小时,有效率不到 4%。

具身智能数据的核心壁垒,从来不只是采了多少小时,而是数据是否足够真实,是否足够干净,能否有效对齐,并且能否适配具体的模型与本体结构。

算法先进,硬件精良,如果没有好的数据支撑,一切都是空谈。

否则,海量数据不仅无法提升能力,反而可能让机器人学歪、学慢。

三重困境层层叠加,每个生产者都在生产数据,但是却没有通用数据产生。

结果是,各家重复采集,各家自建体系,各自训练模型,数据没有形成流动网络,而是被锁定在不同系统中。

数据孤岛由此造成,不是没有人在采集,而是每个人都在按自己的标准采集。问题已经看清,接下来是有没有人正在打通。

从各自采集到共同建设,行业开始打破数据孤岛

面对当下困境,仅仅依靠各家封闭式数据采集,很难支撑通用具身智能的发展,行业正从封闭走向开放。

企业层面,头部企业率先开源。

例如,智元开源 AgiBot World 百万真机数据集,核心目标是建立覆盖真实场景、真实任务、真实机器人平台的大规模开放数据基础。目前该数据集已登陆 GitHub、Hugging Face 和阿里魔搭社区。

乐聚同样开源 LET 数据集,开放超过六万分钟的高质量真机数据,并登顶全网开源具身数据下载榜首位。

企业主动开源,本质上并不只是共享资源,更是一种生态策略。

对于头部玩家而言,开放部分数据,吸引开发者、研究者与上下游企业进入生态,远比封闭积累更有长期价值。

但企业的自发行为终究有限,数据孤岛的问题,本质上并不是单一企业问题,而是系统性问题

接口不统一、标注方式不同、质量标准缺失,仅靠少数公司开源,难以真正实现数据流通。

因此,行业层面的协同机制正在形成。

目前,多个具身智能数据集社区与工作组相继成立,联合企业、高校与研究机构,尝试推动数据标准化与开放协作。

不久前,由开放原子开源基金会发起、乐聚机器人牵头建设,联合 70 余家成员单位,成立了「开放原子具身智能开源数据集社区」,企业、高校、科研机构等多元主体共同参与。

信通院、上海 AI 实验室、百度、蚂蚁灵波、宇树等产学研核心单位悉数在列,核心目标直指一个问题:打破数据壁垒。

同时,「人工智能开源社区开源数据集工作组」也正式成立,将制定数据集的开源治理框架与质量评估标准,希望从源头定义数据的「度量衡」,逐步解决标准不统一、质量参差、开放共享难三大难点。

更重要的是,面对数据孤岛,国家层面的标准建设,成为关键变量。

今年初,我国首个覆盖全产业链、全生命周期的《人形机器人与具身智能标准体系(2026 版)》正式发布,对数据格式、接口规范、标注规则均作出系统规定。

4 月底,我国又在国际标准组织成功立项全球首项《人形机器人数据集》ISO 国际标准,开始尝试围绕数据采集、存储、标注与评估建立统一框架。

企业开始开源、行业开始协同、国家开始制定标准,做这些动作是因为行业已经意识到:如果没有统一的数据体系,机器人能力很难真正规模化演进。

标准化的意义,也远不止技术规范。

在产业早期,竞争往往是单点技术竞争;而当产业逐渐成熟,竞争的重点会转向:谁能定义规则

历史上,类似的路径已经反复出现。

英伟达的成功,不只是芯片能力,还有 CUDA 生态标准,不仅提升 GPU 性能,更在芯片上建立起统一的软件生态与开发语言。

还有 Android 的成功,不只是系统本身,还有统一的接口规范,可以让无数硬件厂商和开发者能在同一套语言上协作,最终构建出一个没有人能绕开的生态。

具身智能今天正在经历同样的阶段:

从技术竞争,进入标准竞争。只有当数据真正形成「公共语言」,而不是各说各话,机器人才能真正进入现实世界。

       原文标题 : 具身智能数据,需要一套“普通话”

来源:具身智能数据,需要一套“普通话” | OFweek机器人网

声明:本文来自OFweek机器人网,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。
0
TAGS: []

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/