大数跨境
0
0

邀请函|“人工智能 高质量数据集”系列六项团体标准参编单位和起草组成员征集

邀请函|“人工智能 高质量数据集”系列六项团体标准参编单位和起草组成员征集 信创云联
2025-11-12
0
导读:诚邀人工智能高质量数据集领域相关单位一起共建标准!


为促进人工智能产业高质量发展,规范高质量数据集开发与应用,根据《中华人民共和国标准化法》《国家标准化发展规划》等规定和要求,结合我国人工智能领域相关政策和行业发展需要,经专家评审,计划开展“人工智能高质量数据集”团体标准计划项目,并组织标准项目参编单位征集工作。


项目背景

随着大模型技术应用的不断深入,人工智能研发的重心正由“模型架构优化”向“模型与数据协同演进”转变,高质量数据在其中的关键作用日益凸显。作为人工智能发展的三大支柱之一,数据已成为大模型训练的核心战略资源,直接决定模型的最终性能与智能水平加快构建高质量人工智能数据集,夯实人工智能发展的数据根基,对推动“人工智能+”在各场景的规模化落地具有战略意义。


国家高度重视高质量数据集的建设,陆续出台《关于构建数据基础制度更好发挥数据要素作用的意见》《“数据要素X”三年行动计划(2024-2026年)》《关于促进数据产业高质量发展的指导意见》等多项纲领性文件,为高质量数据资源体系建设提供顶层设计和制度保障。2025年8月,国家数据局发布104个高质量数据集典型案例,高质量数据集进入系统化、规模化推进阶段。目前,国家数据局协同多部门、多地区,建立起“部门协同、央地联动”的工作机制,系统化布局助力人工智能生态健康发展。


近年来,全球高质量数据集建设进入加速阶段,欧美等发达经济体在开放共享、标准体系、平台化建设方面走在前列,形成了较为完善的多模态、多领域数据集生态体系;我国虽然在国家顶层设计和多方协同推动下,高质量数据集建设体系逐步完善,区域与行业层面呈现并进发展格局。但是,还存在一些不足:数据供给方面,结构性短缺与流通壁垒;技术实现方面,处理能力与工具链水平薄弱;安全合规方面,风险控制需与开放平衡;成本与模式方面,商业闭环还为形成。这些问题制约了高质量数据集建设的速度与质量,也影响了数据要素价值的有效释放。


高质量数据集目前正在快速发展初期,亟需围绕数据集全生命周期,完善数据集标准规范体系,组织制定数据标注、数据合成、建设运营能力评估、行业应用等系列标准,为高质量数据集建设、流通和应用提供依据。推动其建设从分散、无序走向集约化、规模化,构建一套科学完备的数据集标准体系,催生繁荣的数据要素市场。

项目主要内容

1

人工智能 气象行业高质量数据集评价指南

主要内容:本标准将规定AI气象高质量数据集的评价原则、评价指标(基础质量、领域特性、AI就绪度、治理与合规)、评价方法(多级质量评级,为不同应用场景提供参考)、评价流程与评价报告

拟解决问题:质量维度不统一问题、数据与场景脱节问题、标准合规缺失问题、评价流程无据可依问题。

2

 人工智能 大模型 高质量数据集采集汇聚要求

主要内容:本标准规定人工智能大模型高质量数据集全流程技术要求和管理规范,规范采集来源(多模态覆盖、多语言文化覆盖、领域均衡)、数据质量与处理要求(完整性、准确性、多样性、时效性,数据清洗与标注要求等)、合规与安全要求(版权审核、隐私保护、安全伦理)、格式规范要求(元数据规范、文档规范)。

拟解决问题:明确何为“高质量”数据,解决数据来源复杂、版权状态不清、个人隐私信息混杂的难题;解决数据社会偏见、歧视性内容以及违法有害信息问题,解决多模态数据统一治理标准缺失的问题,解决数据集构建过程“黑箱化”问题。

3

人工智能 大模型 高质量文本数据集标注技术要求

主要内容:本标准规定了高质量数据集标注任务分类和标签体系、标注流程(任务定义、规则制定、预标注、人工标注等全流程)、标注人员管理、标注质量控制(一致性、覆盖率、偏差率、合格阈值)、数据安全(内容安全、脱敏处理等)、交付要求(格式、标注手册)。

拟解决问题:解决多标注员、多批次标注中因规则理解差异导致的结果偏差;解决复杂性任务规范缺失难题,解决标注质量难以衡量的问题。

4

人工智能 大模型 高质量数据集合规要求

核心内容:本标准规定了人工智能高质量数据集知识产权合规(来源风险、授权许可、侵权等)、个人信息保护(识别与分类、脱敏处理、权益保障)、数据安全与跨境要求、内容安全与伦理要求、风险应对机制等内容。

拟解决问题:解决数据采集、标注、使用等环节中合规,破解数据生命周期合规管理合规;解决知识产权合规,解决跨境数据流通中的合规问题。

5

人工智能 大模型 高质量数据集管理要求

主要内容:本文件规定了人工智能高质量数据集管理体系与职责(组织与角色、管理平台)、全生命周期管理(采集、清洗、标注、存档、共享、销毁)、质量管控与评估机制、版本与权限管理、存储与安全管理、共享与合规管理、持续维护与更新机制。

拟解决问题:解决“用错数据”这一根本性问题;解决数据集“老化”与性能衰减问题:解决数据集信息不透明问题;解决数据集“只生不灭”问题;解决数据集生命周期管理角色职责问题。

6

数据资产 高质量数据集价值评估指南

主要内容:本标准提供了多维度、多方法的综合评估框架。给出价值评估原则、核心价值维度与指标体系(内在价值、成本价值、市场价值、经济效益价值)、评估方法与模型(成本法、收益法市场法等)、评估流程、结果应用等内容。

拟解决问题:解决数据误判高价值的问题;破解收益法、成本法、市场法在高质量数据集场景中选择依据不明确、参数测算不科学的问题;解决不同机构评估结果差异过大的问题;解决同一数据集在不同业务场景下价值差异问题。

项目计划

团体标准制定流程需经过“五稿”(工作组讨论稿、征求意见稿、技术审查稿、报批稿、发布稿)、“两会”(征求意见会、技术审查会),整个周期一般控制在8-12个月,工作流程见表2。


根据标委会安排,“人工智能 高质量数据集”系列标准预计2025年12月立项,计划5月份召开启动会暨首次研讨会,7月召开征求意见会,9-10月在全国团体标准信息平台公开意见征集,11月召开技术审查会,12月发布。


Join us

诚邀标准共建

本系列项目由信创云联(北京)智能技术研究有限公司(简称“信创云联”)负责组织发布,致力于以国家战略为指引,以服务行业为根本,充分发挥标准的桥梁纽带作用,推动科技成果落地生根、助力产业经验转化为行业方案,凝聚产业共识合力,引领产业全链条协同创新,推进行业高质量发展。


为进一步扩大标准编制与宣贯工作的参与范围,提升标准的创新性、实用性及行业影响力,现诚邀人工智能与数据要素领域的企事业单位、高校院所、检测认证机构等相关单位一起参与“人工智能 高质量数据集”系列标准建设

标委会工作基础








在研标准

1



11月30日截止征集!《企业数据资产》系列标准欢迎数据产业相关单位加入

中国船级社牵头智能船舶领域标准制定 护航船舶工业高质量发展!

国家标准指导文件:《公共数据资源价格形成与收益分配指南》

已发布标准

2



喜报!《网络威胁情报联动共享》两项团体标准正式发布!

喜报!《AI大模型语料库安全技术指南》等两项团体标准正式发布!

喜报!《紫杉醇生物合成通用要求》等3项团体标准正式发布并实施!

【声明】内容源于网络
0
0
信创云联
专注“人工智能+”、“数据要素+”、信息技术等领域标准化建设工作,致力于通过标准化活动构建产业生态,助力最新科技成果和产业实践转化为解决方案,引领产业全链条协同创新,推进行业高质量发展。
内容 77
粉丝 0
信创云联 专注“人工智能+”、“数据要素+”、信息技术等领域标准化建设工作,致力于通过标准化活动构建产业生态,助力最新科技成果和产业实践转化为解决方案,引领产业全链条协同创新,推进行业高质量发展。
总阅读6
粉丝0
内容77