国家数据局推出六大行动 为AI提供优质数据引擎
6月8日,国家数据局印发《推进行业高质量数据集建设行动的实施方案》(下称《方案》),围绕行业高质量数据集在供给、流通以及应用等全链条中的建设需求,部署了强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放六大专项行动,并明确提出到2028年底建成一批覆盖重点领域、经过应用验证的行业高质量数据集,形成“场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值”的产业闭环。北京社科院副研究员王鹏告诉记者,这一方案与近期上线试运行的国家数据集管理服务系统形成“政策+平台”双轮驱动,标志着我国高质量数据集建设由分散探索进入集约化、标准化、产业化发展的新阶段。
在强基扩容这一专项行动当中,《方案》把科学研究、工业制造等19个重点领域,以及低空经济、具身智能、智能驾驶、智慧海洋、生物制造等创新领域,作为加快推进高质量行业数据集建设的核心着力点。中国工业互联网研究院院长鲁春丛指出,一个具有典型性的中等规模智能工厂,仅在人、机、料、法、环等各类要素之间形成的连接点数量上,就已经多达1200到1500个。我国现有制造业企业已超过600万家,这些连接点在持续汇聚之后,每天都会产生出规模难以准确估量、同时蕴含着丰富工业机理的数据洪流。但从当前情况来看,对于这类数据的开发利用仍然处在初级阶段,其内在潜力也远未真正得到释放。
《方案》明确提出,要进一步强化链主单位的牵引带动作用,支持链主单位以联合体等形式,推动产业链上下游开展协同共建以及资源整合,并持续扩大行业高质量数据集的供给规模。“这项部署,正是破解各行业数据潜在价值释放不足问题的一项关键举措。”王鹏表示。
数据标注本质上是把知识与经验注入训练数据当中的过程,也是行业高质量数据集建设过程中不可或缺的关键环节。在标注攻坚行动方面,《方案》明确引导数据标注由“以人为主”向“人机协同、专家深度参与”的多层次标注模式加快转变,进而推动数据标注朝着专业化以及智能化方向实现跃升。这一部署直接回应了工业数据标注中的现实痛点,鲁春丛在调研中发现,许多智能化改造项目里,数据汇聚、清洗、标注以及治理等基础性工作,往往占据了项目投入的绝大部分。
为了建设能够满足人工智能就绪(AI-Ready)要求的高质量数据集,并进一步降低训练以及推理环节的成本,《方案》提出要实施提质增效行动,充分发挥数据合成在数据集建设过程中的积极作用,借助模型、仿真系统等所生成的数据,着力解决稀缺场景数据集构造难以及真实场景数据采集成本高等问题。鼓励各行业、各地方与国家标准形成联动,推动重点行业领域高质量数据集标准的研制工作。持续完善“数据质量验证+模型应用反馈”的测评方法,加快建设覆盖多行业、多场景、多模态的测评数据集,从而对高质量数据集的应用效果进行有效评估。
在应用赋能行动方面,《方案》明确要求坚持“以模引数、用数赋模”的推进路径,通过打造把“数据集生产加工与流通利用”以及“支撑模型训练应用”整合于一体的数据赋能工场,进一步加快人工智能应用落地进程。与此同时,还要推动形成“场景—数据—模型”协同发展的良性循环,充分发挥“人工智能+”场景的牵引作用,推动数据供给与场景需求之间实现精准匹配,以用促建,并依靠实际需求吸引更多数据资源持续汇聚,进而推动行业高质量数据集实现有效供给与持续优化。
管理服务行动以及价值释放行动,则为数据要素的流通提供了制度保障。《方案》明确要求落实数据持有权、使用权以及经营权三权分置制度,并建设“物理分散、逻辑集中”的国家数据集管理服务系统。清华大学法学院教授申卫星表示,数据产权的结构性分置遵循“谁投入、谁贡献、谁受益”的原则,其中,持有权侧重于自主管控,使用权对应内部处理,经营权则指向对外流通。把数据经营权与其他权利进行分离,有助于在保护各方权益的同时,为数据价值的释放预留出空间。在价值释放方面,《方案》提出探索以词元Token为基础的价值体系。创新商业模式,推动由基础数据包销售向API调用、全栈服务实现梯次跃升,探索词元交易等新型交易模式,构建以词元为基础的可量化、可定价数据价值体系。同时,还鼓励探索数据集质押融资、作价入股、资产证券化、数据信托以及数据保险等多元资产化创新模式,进一步拓宽数据价值转化渠道。
来源:国家数据局出手 六大行动给AI装上“优质数据引擎” | 中国能源网