数据练兵场:具身智能的新石油争夺战,如何领跑数据产能革命

2026年05月08日 12:02
本文共计2779个字,预计阅读时长10分钟。
来源/具身研习社 责编/爱力方

作者:赵鹏程    出品:机器人产业应用

前言

2026 年的具身智能行业,正在上演一场看似反常识却贴合产业本质的竞赛。全球头部玩家们开启了“双线扩产”模式——一边推进机器人本体的产能升级,夯实硬件基础;一边全力扩充AI“大脑”的产能,抢占核心竞争力。也正因如此,巨头们集体投入巨资建设“训练场”——这些占地面积动辄数千平米、部署着上百台机器人的特殊空间,正在成为人形机器人产业的“新石油钻井平台”,而数据正是喂养AI大脑的“新石油”。一场围绕数据生产的暗战,正重塑着行业的竞争格局。

01

从 “造机器人” 到 “造数据”:具身智能的认知革命

大模型浪潮席卷全球的当下,具身智能领域却形成了独特共识:数据,而非硬件,才是决定机器人能否走出实验室的核心变量。这种认知转变,源于对具身智能数据层次结构的深刻理解:

image.png

· 底层数据:互联网文本与视频数据,虽海量且低成本,却缺乏机器人所需的物理交互信息,只能用于基础语义理解。

· 中间层数据:仿真数据,可大规模生成,但无法精确还原接触动力学、材料形变等物理细节,存在 “仿真到现实” 的鸿沟。

· 顶层数据:真机交互数据,质量最高、成本也最高,直接决定机器人在真实场景中的任务成功率,是当前行业最稀缺的战略资源。

Generalist AI 创始人 Pete 在最近的行业峰会上抛出了振聋发聩的观点:“我建议所有具身模型公司都放下手中的工作一年,去专注采集数据。没有高质量的真实数据,再先进的算法也只是空中楼阁,再精密的硬件也只是一堆废铁。” 这番话精准戳中了行业痛点 —— 真机数据目前数量少、生产成本高,已成为制约具身智能产业化的核心瓶颈。

训练场的核心价值,正在于批量、标准化、持续地生产这种顶层数据,为机器人提供 “真实世界的实习经验”。这种转变已上升至国家战略高度。在 “十五五” 规划纲要中,“统筹布局具身智能实训场” 被明确列为重点任务,各地政府与企业纷纷加速布局,形成了各具特色的数据生产生态。

02

四方格局:国家队定规矩,地方建生态,企业产数据,高校养人才

目前,国内的具身智能训练场,按运营逻辑可切分为四类:

国家队(如上海国地)在“修考场”,牵头制定标准与测试基准,发行业驾照;

地方国资(如石景山,苏州等)在“铺路”,搞新基建吸引产业链落地;

企业(乐聚、智元、基模企业等)在“种地”,亲自下场搭场景采集核心数据喂饱模型;

高校科研训练场(如郑州大学、哈职大等)在“发课本”,解决数据孤岛与人才断层。

简言之,国家队定规矩,地方建生态,企业产数据,高校养人才——四方合力,只为把机器人从实验室的演示品,变成工厂里的打工人。

以下是国内外部分玩家的概览:

image.png

全球范围内,一场数据产能竞赛已全面展开,各大玩家纷纷亮出 “家底”:

国际巨头的激进布局

· 特斯拉:将弗里蒙特工厂改造为 “生产 + 学习” 一体化基地,Optimus Gen 3 已投入生产线,实现从研发到 “有用工作” 的闭环。

· Figure AI:推出 BotQ 工厂与 Project Go-Big 计划,通过自建工厂 + 全球物业合作,构建全球最大人形机器人预训练数据集。

· Google:打造 RT-X 开放协作体系,通过跨本体数据共享形成 “数据飞轮”,积累速度远超传统学术数据集

· Generalist AI:投入 50 万小时采集人类真实行为数据,GEN-1 模型凭借这些数据实现 99% 的任务成功率,成为行业标杆。

国内生态的多点开花

· 上海张江:联合 10 余家企业部署超百台异构机器人,2025 年预计沉淀千万条数据。

· 北京亦庄:5000 平米基地部署 120 + 台机器人,月数据产能达 1.5 万小时。

· 石景山训练中心:国内最大实景真机训练场,占地超万平米,1:1 还原工业、家居等多场景,年产数据超 600 万条。

在企业类玩家中,以乐聚为代表的头部企业,正在打破 “数据孤岛” 困局。这些头部企业并未将这些宝贵数据据为己有,而是通过开放平台与合作伙伴共享,推动行业数据标准的形成。

其训练场产出的数据并非某台机器人的 “专属教材”,而是一套可标准化复制、共享的 “通用经验”,任何搭载相同底层架构的机器人接入后,都能获得在不同场景中 “干过活” 的实操履历。

image.png

作为国内具身智能生态布局的核心玩家,乐聚的生态计划于2023年正式提出,目前该计划已顺利完成全部阶段目标,为其数据产能与产业化落地筑牢根基。乐聚生态分为两个递进阶段:第一阶段聚焦基础设施层与核心技术层搭建,地基层面建成两座核心工厂,其中与东方精工联合打造的佛山万台级产线工厂,实现“30分钟下线一台”的高效量产能力,同时乐聚在全国布局多个训练场,成为国内核心的真机数据提供商之一。技术研发上,乐聚持续探索Model-Based与RL算法深度融合的“小脑”运控系统及适配产业需求的“大脑”模型,与哈工大、北京大学、北京智源研究院等多所高校及科研院所开展联合科研攻关,同步联合瑶海科创集团、国先中心等启动生态伙伴计划,吸纳优质生态企业入驻共建。第二阶段,乐聚重点推进场景应用层落地,目前已与中国一汽、海晨物流等场景伙伴达成深度合作,其“夸父”机器人在一汽红旗工厂实现连续8小时高稳定作业,在海晨物流生产线完成料箱拆垛、分拣等常态化工作,充分验证了场景落地能力,也为数据采集积累了大量真实场景素材。在这两个生态阶段的坚实积累之上,乐聚目前已正式进入生态发展第三阶段,依托自身全生态链资源优势,从机器人本体量产、真机数据采集,到“大小脑”技术研发、全场景应用落地,形成了完整的产业闭环,现阶段已全面开启二开合作伙伴招募,旨在携手更多伙伴,进一步扩大生态版图,推动具身智能技术的规模化应用。

03

行业挑战与未来:谁能领跑数据产能革命?

尽管具身智能训练场的布局已形成规模,数据的战略价值也得到行业共识,但这场“新石油”争夺战,仍面临诸多挑战:

一是真机数据采集成本居高不下,单条高质量真机数据的采集成本远超仿真数据,如何实现“低成本、高质量”的数据生产,仍是所有玩家需要破解的难题;

二是行业数据标准不统一,不同企业、不同训练场采集的数据格式、标注规范各异,难以实现跨平台共享,“数据孤岛”问题尚未完全解决;

三是数据安全与隐私保护面临考验,部分场景的数据涉及企业核心生产流程,如何在开放共享与安全保护之间找到平衡,成为行业发展的重要课题。

值得称谓的是,行业目前正在朝向乐观的方向前进,以乐聚为代表的企业类玩家,凭借“全国布局+开放生态+数据闭环”的差异化优势,在数据产能革命中稳步领跑,不仅为自身产品迭代提供了坚实支撑,也为整个行业的发展提供了可借鉴的模式。

这场数据练兵场的争夺战,没有绝对的赢家,却有共同的目标——推动具身智能产业的高质量发展。而那些能坚守“数据为王、生态共建、产业落地”初心的玩家,终将在这场革命中,构筑起自身的竞争壁垒,在产业演进的长河中稳步前行。

来源:数据练兵场:具身智能的 “新石油” 争夺战,如何领跑数据产能革命 | 具身研习社

声明:本文来自具身研习社,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/