国家首次系统性部署高质量数据，打造物理AI时代“新石油”

2026年06月08日 20:17

本文共计1703个字，预计阅读时长6分钟。

来源/财联社责编/NuanxinXiaoMo 暖心小茉

《科创板日报》6月8日讯（编辑宋子乔）今日，国家数据局发布《关于推进行业高质量数据集建设行动的实施方案》，这是国家层面首次围绕数据赋能人工智能发展所作出的系统性部署。

《实施方案》指出，行业高质量数据集是指经过采集、加工等环节的数据处理后，能够直接用于人工智能模型开发与训练，并可有效提升模型性能的行业数据集合，其中包含行业通识数据集以及行业专识数据集。

《实施方案》的总体目标在于，到2028年底，建成一批覆盖重点领域并经过应用验证的行业高质量数据集，打造一批由数据驱动人工智能创新发展的典型应用场景，培育一批具备领先优势的创新型数据企业以及专业人才，形成一批用于行业高质量数据集建设的工具和标准。

具体举措包括：围绕行业高质量数据集的供给、流通以及应用等关键环节，系统部署六大专项行动，并面向人工智能的应用需求，持续推进文本、图像、音视频等多模态高质量数据集的建设工作；聚焦智能体、具身智能以及世界模型等重点方向，明确要求加快推进相关数据集建设；同时引导具备条件的地区因地制宜地开展数据标注创新试验区建设。

数据构成了AI训练的核心原料，而要训练一个处于领先水平的大模型，往往需要数百万条、甚至数千万条经过标注的数据。从GPT-4所依赖的13万亿tokens高质量数据，中文汉字通常每个对应1至2个tokens，到Qwen2.5-Max达到20万亿tokens的训练规模，国际巨头正在借助数据优势持续构筑技术壁垒。

高质量数据集的持续性短缺，已逐步成为制约物理AI及其所衍生的智能体、具身智能以及世界模型等前沿方向进一步发展的关键瓶颈。

在2026年世界智能产业博览会上，国家数据局局长刘烈宏明确表示：“高质量数据集构成了具身智能‘感知-决策-执行’全过程的重要基础。”据《科创板日报》此前报道，具身智能领域的多位投资者普遍指出，当前制约具身智能进一步发展的核心瓶颈正在于数据。高质量数据的规模化生产能力，正是这一赛道中的“石油”，“具身数据具有特殊的技术要求，现有的民用数据无法直接复用。例如在抓取水杯时，机器人无法自主判断握持力度，因此极易出现滑落。高精度、第一视角以及多维度的具身数据，当前仍处于极度稀缺状态。”

上述判断与“AI教母”李飞飞的观点形成了高度契合。从早年的ImageNet到如今的WorldLabs，李飞飞始终在强调，数据集的规模会直接决定智能所能达到的程度。她曾在访谈中明确表示，如今，数据很可能再次成为推动世界模型发展的一个特别困难的问题，“数据与算法同等重要。”

在2026年2月举行的思科AI峰会上，李飞飞明确指出，物理世界AI的发展明显滞后于语言模型，其核心瓶颈正在于数据信噪比：文本数据的语义通常较为清晰，且相对容易获取，而物理世界中的像素以及体素数据则充满噪声，同时3D、4D维度的高质量数据又处于极度稀缺的状态。在接受a16z访谈时，她进一步表示，限制AI进步的核心因素从来都不是算力或算法，而是高质量、多模态并且符合物理一致性的数据；这一判断自ImageNet时代延续至今，并且在世界模型的研发阶段表现得更为突出。

今年以来，高质量数据集领域出现了不少新的动向。

4月15日，国家数据局发布了《关于推进行业高质量数据集建设行动的实施方案（征求意见稿）》，并面向社会公开征求意见。工业和信息化部以及国家数据局近期联合印发了《关于联合实施2026年“模数共振”行动的通知》，旨在推动人工智能模型与数据资源之间实现协同互促、同频共振，同时提出到2026年底，基本形成“数据-模型-场景应用”良性互促的循环，进一步推动人工智能高水平赋能新型工业化。

在行业平台层面，4月29日，国家数据集管理服务平台正式发布并启动试运行，具备了覆盖数据集全生命周期的公共服务能力。截至5月31日，平台已完成对516家机构的认证，并发布了1350个数据集，覆盖农业、工业制造、交通以及文旅等重点领域。

截至今年一季度，全国已经建成的高质量数据集已超过11.6万个，总规模已超过960PB。截至今年3月，我国日均词元调用量已经超过140万亿。

来源：国家层面首次系统性部署高质量数据集成物理AI时代“新石油” | 财联社

声明：本文来自财联社，版权归作者所有。文章内容仅代表作者独立观点，不代表爱力方立场，转载目的在于传递更多信息。如有侵权，请联系 copyright#agent.ren。

TAGS: 高质量数据集人工智能具身智能数据赋能世界模型

通知

尊敬的用户

user

资讯

国家首次系统性部署高质量数据，打造物理AI时代“新石油”

国家首次系统性部署高质量数据，打造物理AI时代“新石油”

相关图文

经济日报评论：该向“AI员工”征税吗？

慧辰股份“孤独症具身智脑”亮相具身智能产业论坛切入千亿级康复服务市场

2026全球具身智能产业链协作出海对接会在沪成功举办

人工智能落地加速工业互联网再迎政策东风算力设施成关键底座

报告：长三角具身智能企业数量和融资规模均占全国五成以上

ATHENA将影响函数扩展到十亿参数VLA，实现313倍加速筛选高价值数据

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

启元机器人将携两款产品亮相2026 ChinaJoy

AI硬件再遇利空康宁股价闪崩

芯片股集体大跌！英伟达“自产自销”？其卷入2500亿美元“循环融资”风波，股价暴跌，知名评论员发出警告

佛山市顺德区成立全国首个具身智能发展局

Meta与贝莱德合作开发140亿美元数据中心项目，AI基建融资成本持续攀升

比亚迪人形机器人8月亮相相关概念股梳理

存储、AI芯片、光通信集体下跌，美光跌超5%；强生拟支付55亿美元和解滑石粉诉讼；SK海力士、希捷明日发布财报

具身智能数据为什么必须全链条自主可控？

绿电直供数据中心成为投资热土中卫首批项目投运

谷歌AI搜索一年翻倍：43%搜索结果出现AI概览，传统网页正被直接答案取代

推荐专栏

爱力方

机器人大讲堂

下一篇

user

资讯

国家首次系统性部署高质量数据，打造物理AI时代“新石油”

国家首次系统性部署高质量数据，打造物理AI时代“新石油”

相关图文

经济日报评论：该向“AI员工”征税吗？

慧辰股份“孤独症具身智脑”亮相具身智能产业论坛 切入千亿级康复服务市场

2026全球具身智能产业链协作出海对接会在沪成功举办

人工智能落地加速 工业互联网再迎政策东风 算力设施成关键底座

报告：长三角具身智能企业数量和融资规模均占全国五成以上

ATHENA将影响函数扩展到十亿参数VLA，实现313倍加速筛选高价值数据

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

启元机器人将携两款产品亮相2026 ChinaJoy

AI硬件再遇利空 康宁股价闪崩

芯片股集体大跌！英伟达“自产自销”？其卷入2500亿美元“循环融资”风波，股价暴跌，知名评论员发出警告

佛山市顺德区成立全国首个具身智能发展局

Meta与贝莱德合作开发140亿美元数据中心项目，AI基建融资成本持续攀升

比亚迪人形机器人8月亮相 相关概念股梳理

存储、AI芯片、光通信集体下跌，美光跌超5%；强生拟支付55亿美元和解滑石粉诉讼；SK海力士、希捷明日发布财报

具身智能数据为什么必须全链条自主可控？

绿电直供数据中心成为投资热土 中卫首批项目投运

谷歌AI搜索一年翻倍：43%搜索结果出现AI概览，传统网页正被直接答案取代

推荐专栏

爱力方

机器人大讲堂

下一篇

慧辰股份“孤独症具身智脑”亮相具身智能产业论坛切入千亿级康复服务市场

人工智能落地加速工业互联网再迎政策东风算力设施成关键底座

AI硬件再遇利空康宁股价闪崩

比亚迪人形机器人8月亮相相关概念股梳理

绿电直供数据中心成为投资热土中卫首批项目投运