具身智能赛道迈入数据工厂时代
当各大厂商的人形机器人成功实现稳稳行走以及灵巧抓握的Demo铺满展会现场之时,行业却迎来了一道清晰的分水岭:运动控制这套“小脑”已经高度成熟,而负责理解世界并开展自主规划的机器人大脑,仍被海量场景数据所牢牢困住。一条对标Scale AI、由Alex Wang开创的“数据工厂”商业路径,正在具身赛道得以快速复刻,数据基础设施将成为未来产业胜负手。
小脑对下肢的控制已经成功实现了全线通关,然而高层大脑却仍被海量场景数据所牢牢困住而陷入荒漠。
当各大厂商的人形机器人成功实现了稳稳行走以及灵巧抓握的演示内容铺满展会现场之时,行业却迎来了一道清晰的分水岭:运动控制这套“小脑”系统已经高度成熟,而负责理解世界并开展自主规划的机器人大脑,却仍然被海量场景数据所牢牢困住。一条对标Scale AI且由Alex Wang所开创的“数据工厂”商业路径,正在具身赛道当中得以快速复刻,其中数据基础设施将成为未来产业发展的胜负手。
行业早已形成了清晰的分层架构:其中机器人的“小脑”对应于运动控制、关节执行以及力反馈等底层能力,而“大脑”则是由VLA视觉语言动作大模型与世界模型所构成,进而承担了环境理解、长时序任务规划以及跨场景泛化认知等方面的职责。
近两年来,双足平衡、灵巧手精细操作以及整机运动算法成功实现了规模化突破:宇树、优必选、智元等厂商的人形机器人能够稳定上下楼梯、搬运物料、完成拧瓶盖以及叠衣物等标准化动作;史河特种机器人则依赖于成熟的运动底盘,在船舶除锈、外墙清洗等高危场景中实现了落地,整套肢体执行体系经过真机百万次迭代,在误差、稳定性以及响应速度方面全部达到了商用标准。简单来说,机器人“手脚”已经练得足够灵活。
然而高层认知大脑所面临的却是完全不同的局面。与大模型能够免费抓取全网文本的情况不同,具身智能需要视觉、触觉、关节轨迹、物体力学以及环境时序对齐等多模态物理交互数据,这些数据无法通过线上方式爬取,必须依赖真实世界来完成人类技能的数字化采集过程。行业共识是,能成功实现通用自主能力的具身大模型,至少需要千万小时级别的高质量真实交互数据;截至2026年初,全球合规可用的真机加无本体有效数据仅50万小时,缺口超过99%。
数据短板直接暴露出了大脑所存在的短板:机器人虽然能够精准完成单一预设动作,然而却无法有效应对场景变量——更换一款包装的鸡蛋就容易将其捏碎、面对杂乱桌面时无法自主规划收纳工作、居家场景与工厂场景所具备的能力也完全无法实现互通。根源在于现有数据大多依赖于实验室单一场景来进行产出,缺少海量、多元且来自真实世界的样本,从而无法有效支撑世界模型对物理常识的建立工作。
对当前行业五大数据顽疾进行拆解之后可以发现,它们全部指向了机器人大脑训练供给不足这一核心问题:
当前行业所面临的五大类数据顽疾,在经过系统拆解之后可以发现,它们全部指向了机器人大脑训练供给方面所存在的严重不足。其中第一大顽疾在于数据总量 的极端稀缺。行业内所形成的共识是,能成功支撑通用自主能力的具身大模型至少需要千万小时级别的高质量真实交互数据,然而截至2026年初,全球合规可用的真机加无本体有效数据仅约50万小时,缺口超过99%。这些数据无法借助互联网进行免费抓取,必须依赖于真实物理世界的交互来完成采集工作,这就导致大脑训练所需要的样本供给陷入荒漠状态。
第二大顽疾在于场景多样性方面的严重匮乏。现有数据主要依赖于结构化实验室单一场景来进行产出,缺少对真实世界中杂乱桌面、不同包装变化以及动态干扰等长尾案例的充分覆盖。机器人虽然可以在标准任务中成功实现灵巧抓握,然而一旦更换一款包装的鸡蛋就容易将其捏碎,面对杂乱桌面之时也无法自主开展规划收纳工作,其根源就在于数据分布所存在的同质化偏差方面。
第三大顽疾在于多模态数据的同步对齐工作所面临的极高难度。视觉信息、触觉反馈、关节轨迹、力学属性以及语言指令需要在时间序列上实现精确对齐,任何细微偏差都会污染训练过程。采集以及后续标注这类数据的成本高昂且效率低下,进一步限制了大脑所需要的供给规模。
第四大顽疾在于数据采集与标注过程所具备的高昂成本以及低效特性。依赖于专业遥操作员以及昂贵硬件来进行示范采集,单小时高质量数据的产生需要大量人力与时间投入,导致供给速度难以匹配模型训练的需求。
第五大顽疾在于数据生态所存在的孤岛现象以及标准缺失问题。各大厂商的数据格式互不兼容,企业倾向于将数据私有化以保护知识产权,缺乏中立的数据共享平台和统一标注规范,这就使得整个行业无法形成数据累积的正向循环。
这五大顽疾共同指向同一个核心矛盾:负责理解世界并开展自主规划的机器人大脑,仍被海量场景数据所牢牢困住。一条对标Scale AI、由Alex Wang开创的“数据工厂”商业路径,正在具身赛道得以快速复刻,其中数据基础设施将成为未来产业发展的胜负手。
1、采集成本居高不下这一问题:传统真机遥操作数据的单价达到了500-1000元每小时的水平,其中搭建专属场景、部署机器人以及人工操控所组成的全链路投入均属于典型的重资产模式;
2、规模化采集方面所存在的无解困境:过去整个行业高度依赖于实验室环境下的小范围试点采集模式,因此难以有效覆盖家庭、商超、工业以及仓储等数千类高度差异化的真实世界场景;
3、多模态对齐难度较高:其中视觉信息、触觉反馈、手部动作轨迹以及环境音频需要在毫秒级实现同步,这项同步技术所面临的门槛较高,导致大量原始脏数据无法有效用于机器人大脑的训练工作当中;
4、场景泛化样本方面存在严重稀缺的问题:现有数据集中主要集中于标准化以及简单的任务类型,因此在杂乱环境、突发状况以及长尾真实交互案例的覆盖方面存在明显不足的情况;
5、数据复用性差:在项目制采集模式之下,单批数据仅服务于单次模型微调工作,无法有效沉淀为可被反复利用的通用训练资产。
这场数据供给困局,恰好复刻了大模型早期的发展轨迹。Alex Wang创立Scale AI的核心逻辑,就是跳出零散标注外包的模式,打造标准化、全链路以及可循环的AI数据工厂,从而成为OpenAI、Meta以及英伟达的统一数据供给底座。
Scale AI 的核心商业模式可总结三层闭环:
1、标准化产线采集:依赖于搭建全球分布式数据采集网络,从而对设备、采集规范以及质检标准进行全面统一。
2、自动化精炼加工:依赖于AI预筛与人工复核相结合的方式完成清洗、原子化标注以及多模态对齐工作,从而把原始素材转化为模型可以直接读取的训练集;
。
3、模型回流迭代方面:依赖于大模型训练过程中所暴露出的短板来反向定制并补充相应数据集,进而成功形成了“训练-发现缺陷-补充数据-性能提升”这样的数据飞轮,使得单份标准化数据可以在跨客户以及跨模型的条件下实现重复复用,从而有效摊薄了边际成本。
如今这套“数据炼油厂”逻辑,正在具身智能赛道当中得以完整复刻,其中国内玩家走出了三条并行路线,而且全部瞄准了规模化数据基建方面:
路线1:依赖于无本体穿戴式所开展的分布式采集工作(简智以及觅蜂为其代表性企业)
在三条并行路线之中,路线1所指的正是依赖于无本体穿戴式所开展的分布式采集工作,该工作由简智以及觅蜂所代表。其中这一路径成功摆脱了机器人本体在采集过程中的束缚,借助人类穿戴轻量化专用设备在真实场景中所进行的自然操作,得以实现多模态数据的规模化产出,从而有效缓解了机器人大脑在训练供给方面所面临的严重不足问题。
这一路线通过标准化穿戴硬件与治理平台所形成的产线,依赖于AI预筛结合人工复核的方式完成多模态对齐以及原子化标注工作,把原始人类示范转化为可被VLA模型与世界模型直接读取的训练资产,进而成功构建了“采集-精炼-训练-缺陷回补”的数据飞轮,使得单份标准化数据能够在跨客户以及跨模型的条件下实现重复复用,有效摊薄了边际成本。
简智机器人所推出的Gen DAS系列设备以及觅蜂科技所发布的MEgo系列硬件与Engine治理平台,均在真实家庭、商超、工厂等多元场景中实现了每日万小时级以上的持续供给,覆盖了长尾动态干扰与非结构化环境,精准击穿了总量稀缺、场景同质、多模态对齐困难、成本高昂以及生态孤岛这五大顽疾,为机器人大脑从数据荒漠走向知识绿洲提供了坚实的基础设施。
摒弃重资产机器人真机,转而以轻量化可穿戴设备(数据手套、三目头显以及全身传感套件)作为硬件核心,走进家庭、工厂以及门店当中开展众包采集工作。简智Gen DAS设备成功实现了毫米级动作捕捉以及1mm高密度触觉感知,在超过一千个真实家庭中得以落地部署,2小时即可产出经过加工完毕的训练数据;智元拆分出觅蜂科技推出MEgo采集套件,开放门店、工厂共创模式,发动普通人兼职成为数采员,从而低成本扩充了真实场景样本池。
这种UMI无本体采集模式,其采集成本仅为真机遥操作的1/3,因此得以实现大规模铺开部署,专门对大脑所需的海量生活化以及碎片化场景数据进行补齐工作,从而解决了实验室数据脱离现实的痛点。
路线2:虚实融合数据工厂(光轮、无问智科为其代表性企业)
在三条并行路线之中,路线2所指的正是虚实融合数据工厂所开展的大规模合成数据生成与闭环验证工作,该工作由光轮智能以及无问智科所代表。其中这一路径成功将高保真物理仿真引擎、数字孪生资产与真实世界大型训练场进行了深度融合,在电脑构建的数字平行世界中让机器人得以24小时不间断并行交互与遥操作示范,同时依托真实场景采集数据进行Real2Sim2Real精确校准与回流迭代,进而低成本规模化地产出海量高质量、多样化且多模态完美同步的训练数据,从而有效缓解了机器人大脑在训练供给方面所面临的严重不足问题。
这一路线通过自研全栈仿真底座、测量生成求解三位一体技术路线、大型虚实融合训练场以及无垠治理平台所形成的标准化产线,依赖于生成式AI预筛、自动化标注、物理属性数据库驱动的高精度求解以及人工复核相结合的方式完成了仿真资产构建、多模态精确对齐、原子化处理与Sim2Real迁移验证工作,把虚拟合成轨迹、真实交互示范以及评测反馈转化为可被VLA视觉语言动作大模型与世界模型直接读取的高置信度训练资产,进而成功构建了采集世界—生成世界—模拟世界—缺陷回补—性能提升的数据飞轮,使得单份标准化合成数据能够在跨客户、跨模型以及跨场景的条件下实现重复复用,有效摊薄了边际成本并形成了正向迭代循环。
光轮智能依托首创的求解—测量—生成三位一体全栈自研仿真平台,在虚拟空间中精准捕获材料、接触、摩擦等真实物理特性,构建了中国最大的物理属性数据库,驱动物理求解器优化,实现仿真与真实的双向校准,大幅缩小Sim-to-Real差距;其每周可从仿真遥操基地产出上万小时高质量数据,并推出全球首个工业级具身智能仿真评测平台RoboFinals,通过100项工业级任务提供标准化能力度量,与全球前三世界模型团队全部深度合作,80%以上仿真资产与合成数据均来自光轮平台,形成合成数据训练加仿真考场验证的完整闭环。无问智科则打造了长三角(德清)虚实融合闭环具身智能数据采集训练场,构建起覆盖室内3000㎡、室外封闭场地505亩、全域开放场景937平方公里的三级训练体系,链接数十家真实终端场景,全面覆盖物流仓储、家庭服务、酒店文旅、工业制造、办公服务、商业零售六大核心场景,日产上千小时真实数据并生成百万级别高保真合成数据;其全栈自研无垠物理AI数据基座平台,以世界模型×数据工厂×世界模拟器三位一体战略,构建采集—处理—训练—评测—落地全链路体系,已积累万级小时高质量真实数据集,精准破解行业数据总量、场景覆盖、工具链效率以及测评标准等方面的核心痛点。
当前行业所面临的五大类数据顽疾,在经过系统拆解之后可以发现,它们全部指向了机器人大脑训练供给方面所存在的严重不足问题。而虚实融合数据工厂路径正是对症下药:第一,它通过仿真并行计算突破了数据总量极端稀缺的瓶颈,可无限生成千万乃至亿级小时的合成交互数据,远超目前全球50万小时真实数据的总和;第二,它利用参数化域随机化与程序化生成技术,彻底解决了场景多样性严重匮乏的问题,能够轻松覆盖实验室难以触达的杂乱桌面、不同包装变化、动态干扰、极端工况以及数千类长尾真实世界场景;第三,在仿真环境中视觉、触觉、关节轨迹、力学属性与语言指令实现毫秒级原生同步,完美攻克了多模态数据同步对齐的极高难度,极大降低了脏数据比例;第四,合成数据的边际成本接近于零,相比传统真机遥操作500-1000元每小时的价格,实现了数量级下降,同时大型训练场可规模化开展真实验证与众包采集,进一步摊薄了整体投入;第五,通过中立的数据基座平台与统一仿真资产标准,打破了数据生态孤岛现象与标准缺失问题,促进全行业数据累积的正向循环与共享复用。
这种虚实融合的“数据炼油厂”模式,精准击穿了总量稀缺、场景同质、多模态对齐困难、成本高昂以及生态孤岛这五大顽疾,为负责理解世界并开展自主规划的机器人大脑提供了从数据荒漠走向知识绿洲的坚实基础设施。一条对标Scale AI、由Alex Wang开创的“数据工厂”商业路径,正在具身赛道以虚实融合的新形态得以快速复刻,数据基础设施已成为未来产业发展的胜负手。光轮智能与无问智科的实践证明,合成数据不再是真实数据的简单补充,而是具身智能预训练的主力军与泛化能力的核心驱动力,配合路线1的无本体穿戴式分布式采集,二者形成互补闭环,共同加速人形机器人从“手脚灵活”迈向“大脑聪明”的跨越式进化。
对标Scale公司在合成数据生成方面所具备的能力,光轮智能构建了由真人采集以及仿真生成所组成的双生产线。该公司在不到4个月的时间内成功完成了三轮大额融资,其中两周累计的融资金额达到了20亿元,它依赖于仿真引擎来批量生成长尾边界场景数据,同时成功沉淀了百万小时的人类操作视频,使得标准化数据集的复售率超过了10倍,一份数据可以适配多家机器人厂商的VLA模型训练工作;无问智科则搭建了长三角虚实融合训练场,每天可以产出上千小时的高质量融合数据,从而为通用世界模型的训练工作持续供给多样化的素材。
路线3:大厂全域场景众包(京东、百度)
互联网巨头开放自有业态来进行数据供给工作。京东计划动员60万内外人员佩戴采集设备,得以在两年内冲击千万小时的人类第一视角数据;百度上线具身数据超市,借助整合全行业采集资源来打通数据流通渠道,从而降低了中小模型厂商获取训练素材的门槛。
数据平台借助开放自有业态来进行的数据供给工作,才是产业底层所真正开展的“卖铲子”生意。
资本市场已经提前对这一赛道的确定性展开了下注:简智在成立4个月内就成功拿下了3轮累计超过2亿元的融资;光轮则得以成为全球首个具身数据独角兽企业,其估值成功突破了20亿美元;觅蜂科技在拆分之后即刻就获得了数亿元的种子轮融资;弈人、景联文等数据服务商成功实现了营收破亿并且达到了正向盈利,在整机以及模型公司普遍处于亏损的阶段率先跑通了商业化路径。
资本押注的底层逻辑十分清晰:
1、刚性需求会长期存在:只要机器人大脑依然依赖于多模态物理数据来进行训练工作,那么数据供给方面就不会出现过剩的情况;与LLM文本数据存在不同的是,物理交互数据无法实现无限复制,因此真实场景样本会始终保持稀缺状态;
2、规模效应得以持续放大:数据工厂建成标准化产线之后,采集、标注以及仿真的边际成本得以持续下降,数据资产可反复售卖复用,由此形成了越积累壁垒越高的飞轮;
3、跨行业通用性方面极强:同一套家居以及工业交互数据集得以同时供给给人形机器人、灵巧操作机械臂以及特种作业设备厂商,从而不会受到单一硬件本体所带来的限制。
反观当前行业的发展现状,多数厂商仍然将工作重心放在机器人本体以及端到端模型的迭代工作上,却忽略了对数据基建方面的投入工作,最终陷入Demo表现良好而实际落地效果拉胯的循环——即使小脑运动算法表现再优秀,如果缺少多场景数据对大脑进行喂养,也无法完成通用自主决策工作,只能在固定场景当中重复执行预设动作。
当前99%的公开数据集缺失了精细力感交互维度,这使得机器人抓取以及装配类任务模型极易出现物理幻觉的现象,而补齐触觉以及时序对齐数据之后,VLA模型物理交互能力得以出现质的飞跃。这恰恰说明了,数据平台所提供的标准化多模态素材,才是突破机器人大脑瓶颈的唯一解法。
具身竞争下半场,数据基建定胜负
在大模型浪潮当中,Scale AI 依赖于标准化数据工厂成功吃下了行业红利;当这一模式放到具身智能赛道时,历史正在进行重演。
当下人形机器人的肢体运动以及底层控制工作已进入同质化阶段,真正能够拉开差距的关键在于能否搭建一套规模化、低成本且覆盖全链路的数据生产体系,依赖于这一体系来持续为“机器人大脑”输送千万小时级真实世界训练素材。
从实验室真机小作坊的生产方式,逐步过渡到分布式穿戴众包采集模式、虚实融合数据工厂构建,以及跨行业数据流通平台搭建,具身数据基建的工业化进程才刚刚得以启动。在未来3至5年的发展阶段当中,掌握高质量多模态数据供给能力的参与玩家,会成为整条具身产业链所不可或缺的底层基础设施。
在机器人真正能够走进千家万户以及各类工厂车间之前,优先建成一套完整的数据炼油厂,才是这一产业所最为确定的长期主线所在。
这一判断并非简单的主观预期,而是基于产业底层逻辑的必然推演。互联网巨头正逐步开放自有生态以开展数据供给工作。京东计划动员六十万内外人员佩戴采集设备,得以在两年内积累千万小时级别的人类第一视角多模态数据;百度则上线具身智能数据超市,借助整合全行业采集资源来打通数据流通渠道,从而实质性降低了中小模型厂商获取高质量训练素材的门槛。
数据平台借助开放自有生态来实现的数据供给工作,才是产业底层真正开展的“卖铲子”式生意。资本市场已提前对这一赛道的确定性完成下注:简智在成立四个月内便完成三轮累计超过两亿元的融资;光轮智能成为全球首个具身数据独角兽企业,估值突破二十亿美元;觅蜂科技在拆分后迅速获得数亿元种子轮融资;弈人、景联文等数据服务商则已实现营收破亿并达到正向盈利,在整机厂商与模型公司普遍亏损的阶段率先跑通商业化路径。
这一商业模式的长期优势体现在三个相互强化的维度。首先,刚性需求会长期存在:只要机器人大脑依然依赖多模态物理世界数据来进行训练,那么数据供给方面就不会出现过剩。只要物理交互数据无法像文本数据那样实现无限复制,真实场景样本就始终保持稀缺状态。其次,规模效应得以持续放大:当数据工厂建成标准化产线之后,采集、标注以及仿真的边际成本会持续下降,而数据资产可反复售卖与复用,由此形成越积累壁垒越高的正向飞轮。第三,跨行业通用性极强:同一套家居或工业交互数据集能够同时供给给人形机器人、灵巧操作机械臂以及特种作业设备厂商,从而摆脱单一硬件本体的限制。
反观当前多数厂商,仍将工作重心放在机器人本体以及端到端模型的迭代上,却忽略了对数据基建的系统投入,最终陷入实验室表现良好而实际落地效果不佳的循环。即使小脑运动控制算法再优秀,如果缺少足够多场景、多模态的真实数据来喂养大脑,也难以完成通用自主决策,只能局限于固定场景中重复执行预设动作。当前公开数据集中,百分之九十九都缺失了精细力感交互维度,这直接导致机器人抓取与装配类任务模型频繁出现物理幻觉现象。而一旦补齐触觉以及时序精确对齐的数据,视觉语言动作(VLA)模型的物理交互能力便会产生质的跃升。这恰恰说明,数据平台所提供的标准化多模态素材,才是突破机器人大脑瓶颈的根本路径。
在大模型发展历程中,Scale AI 依赖标准化数据工厂吃下了行业主要红利。当同一模式迁移到具身智能赛道时,历史正在重演。当前人形机器人的肢体运动与底层控制已进入同质化竞争阶段,真正能够拉开差距的关键,在于能否搭建起一套规模化、低成本且覆盖采集-标注-仿真-流通全链路的数据生产体系,并依赖这一体系持续为“机器人大脑”输送千万小时量级的真实世界训练素材。
从实验室真机小规模生产方式,逐步过渡到分布式穿戴众包采集、虚实融合数据工厂构建以及跨行业数据流通平台搭建,具身数据基建的工业化进程才刚刚启动。在未来三至五年的时间窗口内,掌握高质量多模态数据供给能力的参与者,将成为整条具身智能产业链不可或缺的底层基础设施。
具身智能四肢所开展的运动控制工作已经练得较为熟练,然而大脑所需要依赖的千万小时级数据底座仍然存在显著缺失。
来源:具身智能四肢已练熟, 大脑还差千万小时数据底座 | OFweek机器人网