国家首次系统性部署高质量数据,打造物理AI时代“新石油”
《科创板日报》6月8日讯(编辑 宋子乔)今日,国家数据局发布《关于推进行业高质量数据集建设行动的实施方案》,这是国家层面首次围绕数据赋能人工智能发展所作出的系统性部署。
《实施方案》指出,行业高质量数据集是指经过采集、加工等环节的数据处理后,能够直接用于人工智能模型开发与训练,并可有效提升模型性能的行业数据集合,其中包含行业通识数据集以及行业专识数据集。

《实施方案》的总体目标在于,到2028年底,建成一批覆盖重点领域并经过应用验证的行业高质量数据集,打造一批由数据驱动人工智能创新发展的典型应用场景,培育一批具备领先优势的创新型数据企业以及专业人才,形成一批用于行业高质量数据集建设的工具和标准。
具体举措包括:围绕行业高质量数据集的供给、流通以及应用等关键环节,系统部署六大专项行动,并面向人工智能的应用需求,持续推进文本、图像、音视频等多模态高质量数据集的建设工作;聚焦智能体、具身智能以及世界模型等重点方向,明确要求加快推进相关数据集建设;同时引导具备条件的地区因地制宜地开展数据标注创新试验区建设。
数据构成了AI训练的核心原料,而要训练一个处于领先水平的大模型,往往需要数百万条、甚至数千万条经过标注的数据。从GPT-4所依赖的13万亿tokens高质量数据,中文汉字通常每个对应1至2个tokens,到Qwen2.5-Max达到20万亿tokens的训练规模,国际巨头正在借助数据优势持续构筑技术壁垒。

高质量数据集的持续性短缺,已逐步成为制约物理AI及其所衍生的智能体、具身智能以及世界模型等前沿方向进一步发展的关键瓶颈。
在2026年世界智能产业博览会上,国家数据局局长刘烈宏明确表示:“高质量数据集构成了具身智能‘感知-决策-执行’全过程的重要基础。”据《科创板日报》此前报道,具身智能领域的多位投资者普遍指出,当前制约具身智能进一步发展的核心瓶颈正在于数据。高质量数据的规模化生产能力,正是这一赛道中的“石油”,“具身数据具有特殊的技术要求,现有的民用数据无法直接复用。例如在抓取水杯时,机器人无法自主判断握持力度,因此极易出现滑落。高精度、第一视角以及多维度的具身数据,当前仍处于极度稀缺状态。”
上述判断与“AI教母”李飞飞的观点形成了高度契合。从早年的ImageNet到如今的WorldLabs,李飞飞始终在强调,数据集的规模会直接决定智能所能达到的程度。她曾在访谈中明确表示,如今,数据很可能再次成为推动世界模型发展的一个特别困难的问题,“数据与算法同等重要。”
在2026年2月举行的思科AI峰会上,李飞飞明确指出,物理世界AI的发展明显滞后于语言模型,其核心瓶颈正在于数据信噪比:文本数据的语义通常较为清晰,且相对容易获取,而物理世界中的像素以及体素数据则充满噪声,同时3D、4D维度的高质量数据又处于极度稀缺的状态。在接受a16z访谈时,她进一步表示,限制AI进步的核心因素从来都不是算力或算法,而是高质量、多模态并且符合物理一致性的数据;这一判断自ImageNet时代延续至今,并且在世界模型的研发阶段表现得更为突出。
今年以来,高质量数据集领域出现了不少新的动向。
4月15日,国家数据局发布了《关于推进行业高质量数据集建设行动的实施方案(征求意见稿)》,并面向社会公开征求意见。工业和信息化部以及国家数据局近期联合印发了《关于联合实施2026年“模数共振”行动的通知》,旨在推动人工智能模型与数据资源之间实现协同互促、同频共振,同时提出到2026年底,基本形成“数据-模型-场景应用”良性互促的循环,进一步推动人工智能高水平赋能新型工业化。
在行业平台层面,4月29日,国家数据集管理服务平台正式发布并启动试运行,具备了覆盖数据集全生命周期的公共服务能力。截至5月31日,平台已完成对516家机构的认证,并发布了1350个数据集,覆盖农业、工业制造、交通以及文旅等重点领域。
截至今年一季度,全国已经建成的高质量数据集已超过11.6万个,总规模已超过960PB。截至今年3月,我国日均词元调用量已经超过140万亿。
来源:国家层面首次系统性部署 高质量数据集成物理AI时代“新石油” | 财联社