得场景者得具身智能:当数据成为物理AI的“矿权”,物联网价值将被重估
得场景者得具身智能:当数据成为物理AI的“矿权”之后,物联网所具有的价值必将被重新估量
具身智能真正的护城河,在于那一片能够持续自我造血的“物理底座”。
上一篇《把大象塞进冰箱:“液态AI”背后藏着AIoT的第一性原理》之中,端侧智能被比作一台冰箱,并由此留下了一个悬念:这台冰箱面临着两个硬约束,其一是算力与能耗,对应的是冰箱的“电力”;其二是数据,对应的则是冰箱的“食材”。此前已经谈到,液态AI如何让冰箱实现“省电”,也就是按需耗能;今天,接着来讨论那个更为棘手的问题:食材究竟从哪里来?
在此前的文章《当台积电把人形机器人写进财报:芯片侧的”明牌”与数据侧的”暗战”》之中,曾提出过这样一个判断:台积电借助三十多年的积累在芯片端构筑起了护城河,大模型公司则用三年时间在模型端挖出了护城河,而下一道真正意义上的天堑,很可能会被建在数据端。这一篇,便借助“冰箱”这一比喻,进一步对这场数据暗战背后的底层逻辑进行拆解。
最近国内有两幕场景,值得关注。
一边,京东宣布将依托零售、物流等海量真实业务场景,着手构建具身智能数据采集中心。其甚至计划调动六十万人,佩戴自研穿戴设备JoyEgoCam,把做家务、劳作的第一人称画面实现“即戴即采”,目标是在两年内积累下一千万小时数据。
另一边,以优必选Walker S2为代表的工业人形机器人,已经开始成批进入新能源车企、3C产线以及物流仓库之中,并把所承担的工种逐步收敛到搬运、分拣以及质检等环节。从比亚迪、富士康到顺丰,这份“进厂打工”的名单也正在变得越来越长。
一家电商巨头开始调动数十万人,对真实生活场景进行持续记录;一批机器人则进入工厂流水线,在参与作业的同时不断积累数据。当下最敏锐的资本,正借助看似最朴素的方式,去获取一种无法直接买到的东西。
为什么会买不到?因为互联网这座“超市”里所陈列的大量文字、图片以及视频,其本质仍然只是人类对于世界的“旁观式记录”。而那些需要在物理世界之中实际行动的机器人,真正需要的却是第一人称的“交互式反馈”,包括推门时所感受到的阻力、关节所处的角度,以及物理世界所给出的实时回应。这类数据并不会在超市里出售,只能依靠自己下地去种,再亲手去摘。
这篇文章将重点围绕三个核心议题展开讨论:具身智能数据为何会存在根本性的稀缺,现有物联网为何会成为解决这一痛点的最佳数据来源,以及在这条被重塑的价值链当中,究竟谁将掌握真正的主导权。
见底的是经验,而非数据
把行业瓶颈笼统地归结为“缺数据”,本质上其实是一种误读。互联网上的数据几乎无穷无尽,真正正在见底的,其实是另一种更关键的东西:经验。
这或许恰恰构成了当前产业界最典型的认知误区之一,即把具身数据直接等同于视频数据。
互联网视频本质上属于“观察者”视角下的记录,而具身智能真正需要的,则是来自“第一人称”视角的多模态行动数据。
文本大模型所汲取的是“知识”,而具身大模型真正需要的则是“经验”;并且这里所说的经验,必须完整包含在物理世界之中经过试错并被持续纠正的过程。比如,如果要让机器人学会擦桌子,那么就必须在真实发生的物理交互过程之中,以极高的时间同步率,把视觉、力觉、关节位置以及电机指令等多维传感轨迹完整记录下来。这类数据,在互联网上根本不存在现成可直接运用的来源。
这一区分,实际上把问题的性质从“数量不够”转变成了“类型不对”,而类型层面的缺口,并不是单纯依靠资金投入就能够填补的。到了2025年,已有超过60亿美元的狂热资本涌入人形机器人赛道,但其中根本性的瓶颈却丝毫没有改变,更多的资金可以购置顶级硬件、延揽天才工程师,却依然无法凭空变出原本就根本不存在的训练数据。
此前曾对这笔账做过测算:文本大模型所依赖的训练语料,通常是以“百亿小时”来计量的,而当前整个行业所拥有的高质量具身智能数据存量,大约却只有50万小时。从50万小时到百亿小时之间,横亘着一道高达两万倍的巨大鸿沟。这里还存在着一个极为强烈的反差:截至2024年,全球范围内正在运行的工业机器人数量已达到466.4万台,但与如此庞大的硬件存量形成对照的是,公开可被用于机器人学习的高质量真实交互数据,仍然主要停留在百万级轨迹的量级。以Open X-Embodiment为例,作为一项具有代表性的开源机器人数据合集,其包含了100万+条真实机器人轨迹,并且已经聚合了多种机器人形态以及任务数据;但如果与数百万台正在真实工厂、仓库以及服务场景之中持续运行的机器人相比,其可供训练的数据规模,依然显得相当稀薄。
更为棘手的是,这道鸿沟不仅体现在数据的“数量”层面,更体现在数据的“维度”层面。
机器人的数据感官至少涵盖六个以上的维度,包括视觉、听觉、力觉、触觉以及本体感知等。然而,当前产业界九成的精力,依然停留在RGB视觉这一两个维度之上。巨头们费尽心思所采集的所谓“机器人数据”,在感知维度方面充其量只解决了十分之一的问题;其余的力觉、触觉以及本体感受,至今仍然没有现成的规模化采集路径。症结从来不在于数据“多不多”,而在于数据“对不对”。
沿着这一判断继续向下推演:既然“经验数据”只能由那些亲身作用于物理世界的实体来加以生产,那么在此时此刻,究竟是什么已经大规模地嵌入到物理世界之中,并且正在持续不断地进行感知以及动作?
答案最终指向了一个长期以来都被低估的关键存在:物联网。
油田与炼厂:物联网的价值终将被重新估量
工业现场的传感器、街头部署的摄像头、腕部佩戴的可穿戴设备、道路上的智能汽车、产线运行的机械臂……这些共同汇聚而成的庞大“存量物联网”,构成了当下唯一一张已经大规模铺入物理世界、并且仍在持续开展感知的网络。
此前在谈论数据采集时,目光更多聚焦于那些专门为了采集而建设的“数据工厂”以及“训练场”;但实际上,还存在着一座规模更为庞大、却始终未被当作数据资产加以看待的矿藏,也就是那些早已为了其他目的而部署、并且此刻仍在昼夜运转的存量设备。
它们从一开始就是经验数据的采集管道。这意味着,物联网的价值坐标很可能需要被重新标定:它必须从过去以“连接与降本”为主的成本中心,重估为能够为具身智能持续提供数据燃料的利润中心。

但在这里,仍有一个质疑必须先被回应:既然工厂之中早已堆积了大量传感器数据,为什么机器人依然会“吃不饱”?
答案其实相当残酷:绝大多数存量数据从根本上都不达标,它们不仅彼此孤立、缺乏必要标注、模态之间不同步,而且更没有与动作指令成功形成配对。粗略统计显示,当前行业数据的“良品率”实际上只有约三成。成本的大头也根本不在采集设备本身之上,而在于标注、验证以及技能抽象化等环节。谁能够把良品率从三成推高到七成,谁就会握有两到三倍的成本优势。
所以,油田虽然遍地皆是,但炼厂依然十分稀缺。真正处于核心位置的,是那座能够把“传感器废气”提炼成为“可训练燃料”的炼厂。开采仅仅只是第一步,原油如果不被炼制成燃料,那么就无法被送入任何一台机器之中。
也许会有一些人提出反驳:世界模型当然可以借助仿真环境来合成数据,物理采集充其量只是阶段性的权宜之计。这条赛道的热度确实无可争议,然而,从仿真走向现实之间所横亘的那道鸿沟,其本质归根结底是物理规律层面的鸿沟,而并非单纯意义上的工程问题。
电网之中一度电所出现的细微电压波动、车间地面摩擦系数所存在的微小差别,以及一块皮革表面所呈现出的复杂纹理,都足以让那些在仿真环境里运行得近乎完美的算法,一旦进入现实场景便瞬间失效。合成数据如果想要具备可信度,其前提就在于必须有真实数据对其进行锚定与校准。因此,借助物联网所采集到的真实经验,永远都不会被合成数据所取代;恰恰相反,它会进一步沉淀为整个合成数据范式得以成立的“物理底座”。
与此同时,也必须承认,在当下大量既有的物联网存量设备之中,所采集到的依然主要是温度、电流以及振动这类“低维遥测数据”,而这并不是机器人最为渴求的“高维接触数据”。真正能够构成具身智能底座的,是那些正在快速铺开的高保真、多模态边缘网络,包括高清摄像头、高精度可穿戴设备、车载多维传感,以及已经被全面深度感知化的生产线。
而这,恰好与上一篇专栏所讨论的内容形成了内在呼应:边缘端在逐步长出更省电的“大脑”的同时,也在持续长出更敏锐、更加丰富的“感官”。冰箱正在变得更节能,而孕育智能的物理土壤,也在因此变得愈发肥沃。
价值链正在发生反转:谁掌握场景,谁就掌握具身智能
看清“燃料”究竟从何而来之后,价值最终会落在何处,也就随之变得清晰起来。若把具身智能的资本金字塔进一步拆开来看:最上层是机器人本体厂商,当前早已是一片红海;中间层是数据采集设备以及平台,蓝海才刚刚显现;而最底层则是数据要素基础设施,主要由国家队主导,并且越往下,其根系也就扎得越深。
而这座具身智能金字塔背后的驱动逻辑,本质上就是数据飞轮:先在真实世界之中部署设备,对交互数据进行持续采集,用以喂养并强化模型,进而再去推动更广泛、更深层次的部署。
这一飞轮最终所指向的,其实是一个颇具反直觉意味的结论:它会天然地偏向那些早已掌握物理场景的“存量玩家”,而不是单纯从事本体研发的创业公司。

谁手中真正掌握着能够源源不断产生数据的真实场景,谁也就等于握住了决定胜负的关键;至于机器人本体究竟造得是否足够漂亮,反而已经退居到相对次要的位置。就连老牌工业机器人厂商也已经直言不讳地指出,其所服务的制造业客户群体,能够直接接触真实工件以及真实生产环境,而这种充满物理质感的数据,恰恰是那些纯软件出身的具身智能开发者最为匮乏的核心资产。
数据飞轮的真正瓶颈,从来都不在传感器本身,而在于数据确权、流通机制以及标准化体系的建设程度;而这一整套基础能力,如今正在被作为国家级工程持续强力推进。今年年初,全国首单具身智能数据集已在江苏省数据交易所完成场内交易,成功实现了该品类在数交所交易层面的“零的突破”;与此同时,国家数据局也已明确表示,今年我国将推出三十余项数据领域国家标准,并围绕智能体、具身智能等前沿方向进行提前布局。
未来,在具身智能时代真正决定胜负的关键,未必会落在造出多么漂亮的机器人或多么惊艳的模型之上,而更可能落在能否率先建成那一整套制度以及工程底座,并把庞大的存量物理世界真正转化为可交易的数据燃料。
写在最后
近期所写的两篇文章正在逐步形成一个系列,上一篇所着力解决的是“按需耗能”的问题,而这一篇则进一步回应“持续供粮”的问题。具身智能真正的护城河,既不在于本体,也不在于大脑,而在于那片能够持续自我造血的“物理底座”。当这些设备进一步连接成网之后,数据以及价值究竟应当依照何种规则进行交换,又应当由谁来制定规矩,便构成了接下来需要回答的问题。
大象若想真正走入物理世界,所面对的难题从来都不只是算力以及能耗;真正构成下一轮更硬考题的,其实是数据、规则以及价值分配。
本文转自微信公众号“物联网智库”(ID:iot101),作者为彭昭
来源:得场景者得具身智能:当数据成了物理AI的"矿权",物联网的价值必将重估-36氪 | 36氪