大数跨境
0
0

研究速递丨高质量数据集标准体系构造研究

研究速递丨高质量数据集标准体系构造研究 信创云联
2025-12-16
1
导读:高质量数据集标准化助力数据要素市场化配置与人工智能产业发高质量发展。

摘要:在数据要素与人工智能技术迭代的双重驱动下,高质量数据集作为数据要素价值释放的重要载体,其标准体系构建已成为破解数据流通壁垒、规范行业发展秩序的关键。本文系统梳理高质量数据集标准体系的理论基础与政策背景,明确标准体系的核心分类框架,从基础通用、技术流程、质量评估、行业应用、安全合规五大维度,全面剖析现有标准的覆盖情况,深入挖掘当前标准体系在多模态适配、新兴技术融合、跨行业协同等方面的缺口,结合国内外前沿实践提出待建标准的重点方向与实施路径,为我国高质量数据集标准化建设提供理论支撑与实践指引,助力数据要素市场化配置与人工智能产业高质量发展。

关键词:高质量数据集 标准体系 数据要素 人工智能 全生命周期管理



image.png

文章作者|杨辉,中国质量认证中心;杜潇霖,中国质量认证中心;王锋,中国质量认证中心;沙若男,中国质量认证中心


当前数据要素已成为新质生产力核心引擎,随着人工智能大模型的快速发展,高质量数据集愈加成为数据要素价值释放的重要载体。


图片
01


引言


国家层面,中央明确提出高质量数据集建设要求,从顶层设计到地方实践协同推进。《“数据要素×”三年行动计划(2024-2026年)》[1]提出构建高质量语料库与基础科学数据集;《国家数据标准体系建设指南》[2]明确数据质量、安全、流通等标准方向;《关于促进数据产业高质量发展的指导意见》[3]提出2029年数据产业规模年均增速超15%,强化数据集标准支撑的要求;江苏[4]、广东[5]上海[6]等各地区也在国家政策指导下开展高质量数据集推进政策。国际方面,高质量数据集立法强制与开放共享并行。欧盟《人工智能法案》[7]要求高风险AI系统使用伦理审查数据集,《高价值数据集实施法案》[8]强制开放6类高价值数据并规范格式标准;美国《开放政府数据法案》[9, 10]推动联邦数据48种可机读格式开放等。


目前人工智能大模型正在从“模型中心”转向“数据中心”,数据集质量直接决定模型性能与行业赋能效果。然而,相关标准的缺失导致数据质量参差不齐,数据市场面临汇聚产量低、供给质量低、利用效率低“三低”困境,跨部门、跨行业数据流通因标准不统一受阻,亟需系统化标准体系支撑。


图片
02


高质量数据集标准体系现状分析与理论基础


2.1 标准现状


在全国标准信息公共服务平台以“数据集”为关键词搜索,补充部分人工智能相关标准,整理获得高质量数据集相关标准。其中,现行国家标准21个,且多数为数据集成、字符编码相关标准,与高质量数据集关联不大,存在欠缺;相关技术文件12个,涉及高质量数据集全生命周期与多个行业的应用,其中4项已发布,分别为TC609-5-2025-01《高质量数据集 建设指南》、TC609-5-2025-02《高质量数据集 格式要求》、TC609-5-2025-03《高质量数据集 分类指南》、TC609-5-2025-04《高质量数据集 质量评测规范》;现行行业标准72个,主要涉及卫生、医药、环保、气象等行业,其中卫生领域标准数量最多,为58个;现行地方标准68个,山东省、江苏省、北京市等地方相关标准数量最多。


2.2 理论基础


参考数据集现有标准情况与《国家数据标准体系建设指南》[2],建设高质量数据集标准体系。建设过程参考国家数据局指导编制的《高质量数据集建设指引》等报告[11, 12]相关要求,主要依据以下三个理念:一是数据全生命周期管理,即标准体系需覆盖数据采集、清洗、标注、存储、流通、销毁全环节,确保各阶段质量可控;二是数据要素市场化,即标准体系需支撑数据确权、定价、交易等市场化环节,推动高质量数据集合规高效流通;三是人工智能技术适配,即标准体系需匹配大模型、多模态、少样本学习等技术需求,保障数据

数据集对AI模型的支撑能力。


图片
03


高质量数据集标准体系的核心分类框架


基于数据要素流转逻辑、技术应用需求与行业场景差异,高质量数据集标准体系可划分为基础通用类、技术流程类、质量评估类、行业应用类、安全合规类五大核心类别,各类别既相互独立又协同衔接,形成覆盖“定义、生产、评估、应用、监管”的全链条标准体系,见图1。


基础通用类:界定核心概念、分类分级与元数据规范,是整个体系的根基,确保各参与方对高质量数据集的认知统一。


技术流程类:规范数据集全生命周期技术操作要求,包括采集、清洗、标注、存储、更新等环节,保障数据生产过程标准化。


质量评估类:建立量化的质量评价指标与分级体系,是衡量数据集“高质量”的核心标尺,支撑数据集质量的可衡量、可比较。


行业应用类:结合不同行业特性定制标准要求,实现标准与医疗、卫生、金融等领域场景的精准适配。


安全合规类:贯穿数据流转全过程,明确隐私保护、安全管理与伦理审查要求,是数据集合规流通的底线保障。


image.png

高质量数据集标准体系结构图


图片
04


高质量数据集标准体系现有标准梳理


4.1 基础通用类标准


术语定义:TC609-5-2025-01《高质量数据集 建设指引》已界定高质量数据集相关定义。


元数据:GB/T 18391.1-2022《信息技术 数据元的规范与标准化 第1部分 数据元的规范与标准化框架》明确元数据需包含来源、权属、更新周期等核心字段。对于高质量数据集,还需建立更符合实际需要的标准。


数据集分类:TC609-5-2025-03《高质量数据集 分类指南》将数据集分为通识、行业通识、行业专识三类。


管理:需要规范数据集全生命周期管理模型,含AI训练数据集专属管理流程与能力评估模块。


服务:需要制定数据集服务体系,涵盖AI模型训练数据服务、数据集质量诊断服务的功能性能要求。


4.2 技术流程类标准


数据采集:《风能发电系统 智能风力发电场数据采集技术规范》(GB/T 44360-2024)等标准规定不同领域数据采集规范。


数据标注:《人工智能 面向机器学习的数据标注规程》(GB/T 42755-2023)明确了数据标注流程。


数据处理:GB/T 44109-2024《信息技术 大数据 数据治理实施指南》;行业标准HJ 721-2014《环境数据集加工汇交流程》等。


存储传输:国家数据共享交换平台目前采纳美国可机读格式标准,要求公共数据集提供API接口并支持至少3种编程语言调用。还需要建立符合国家特定需求的存储与传输接口标准。


4.3 质量评估类标准


数据质量评价标准:《高质量数据集 质量评测规范》(TC609-5-2025-04)从说明文档、数据质量、模型应用三个维度评价数据集质量;YD/T 6486-2025《面向人工智能的数据集质量通用评估方法 总体要求》;中国信通院在NIST四维度(完整性、时效性、一致性、精确性)基础上新增“价值属性”,形成五维评估体系。


模型验证标准:将数据用于人工智能模型开发和训练,对模型性能是否达到预期进行评估,以验证数据集是否满足要求的标准,目前尚无统一规定。


建设运营评价标准:全国数标委征集的第二批标准需求中包含《高质量数据集 建设运营评价模型》,该类标准更注重数据集本身质量以外的从建设到运营的过程,可以与数据质量评价类标准互补。


综合评价标准:中国质量认证中心“CQC-6D”模型评价标准与《高质量数据集 质量评测规范》指标对齐,包含数据说明、数据模态、赋能阶段、数据指标、数据服务、数据管理6个维度,综合考虑数据集质量与建设运营全生命周期流程。


4.4 行业应用类标准


医疗领域:包括YY/T 1833.2-2022《人工智能医疗器械 质量要求和评价 第2部分:数据集通用要求》等。


卫生领域:标准数量最多,包括WS/T 306—2023《卫生健康信息数据集分类与编码规则》等。


环保领域:包括HJ 721-2014《环境数据集加工汇交流程》等。


气象领域:包括QX/T 516—2019《气象数据集说明文档格式》等。


4.5 安全合规类标准


隐私保护标准:GB/T 35273-2020《信息安全技术 个人信息安全规范》明确个人数据集脱敏要求。


安全管理标准:GB/T 37988-2019《信息安全技术 数据安全能力成熟度模型》将数据集安全分为5级。


伦理审查标准:DB37/T 4845—2025《人工智能技术应用伦理风险的治理要求》等。


图片
05


高质量数据集标准体系建设重点与实施路径


5.1 高质量数据集标准体系建设重点


基础通用类需重点建设多模态数据集基础规范。当前标准以单模态为主,需制定多模态数据集通用要求,明确跨模态数据融合规则、语义一致性判定方法。


技术流程类需要重点考虑合成数据、数据集动态更新、自动化标注等方向。制定合成数据集技术标准,规范生成算法、真实性校验、溯源标识要求,防止模型训练数据污染;建立数据集动态维护规范,明确不同类型数据集更新频率阈值及衰减率计算方法,解决数据时效性不足问题;制定面向高质量数据集的智能标注工具技术要求,规范AI标注工具准确率下限、人工复核比例,提升标注效率与质量。


质量评估类需要强调全生命周期评估。现行标准更侧重静态评估,需制定数据集全生命周期质量评估规范,新增数据动态指标,建立“生产-使用-迭代”闭环评估流程。


行业应用类应侧重新兴领域专项标准与跨行业融合。制定自动驾驶感知数据集规范、生成式AI训练数据集规范等,支撑新兴技术场景应用;制定跨行业融合数据集规范,明确金融-制造、医疗-保险等跨领域数据格式转换、语义映射规则,支撑“数据要素×”融合场景。


安全合规类需要重点考虑合成数据合规与动态安全检测。建立合成数据集合规审查指南,可以界定合成数据与原始数据权属、隐私边界,防止侵权与偏见传播;制定数据集安全动态监测规范,能够明确异常访问、数据泄露等风险监测指标与预警阈值,实现实时风险管控。


5.2 高质量数据集标准体系实施路径


一是层级协同,国家层面发布高质量数据集标准体系建设规划并明确建设优先级,行业层面制定相应技术流程与质量评估类推荐标准,地方层面结合产业特色补充行业应用类标准;二是技术赋能,开发智能评测工具,建设标准数据库,推动技术与标准融合;三是试点推广,选择医疗等高价值领域开展标准试点,在数据要素市场试点地区推广标准应用,推动国内标准与国际标准互认;四是生态培育,通过政企研协同制修订标准,在高校开设数据标准化相关课程,并通过行业峰会、标准解读会等形式普及标准知识,发布标准应用优秀案例,提升企业对标准的认知与应用意愿。


图片
06

结论


高质量数据集标准体系是数据要素市场化配置与人工智能产业发展的核心基础设施。当前我国已初步形成国家顶层设计与行业地方实践结合的标准建设格局,但在多模态适配、新兴技术融合、跨行业协同等方面仍存在标准缺口。未来需以基础通用为根基、技术流程为支撑、质量评估为核心、行业应用为特色、安全合规为底线,通过层级协同、技术赋能、试点推广与生态培育,构建动态适配、国际接轨的标准体系,为数据要素价值释放与数字经济高质量发展提供坚实支撑。


来源:CQC 绿色制造与数据要素



高质量数据集标准化建设

推进高质量数据集标准化至关重要,有助于从评估、技术层面提升数据质量,优化AI模型性能;解决多源数据融合难题,降低处理成本;打破数据壁垒,促进共享流通以推动AI与行业融合;还能规范数据全流程,明确版权与隐私保护,保障应用合法安全。

目前标委会正在结合高质量数据集市场需求和实践经验,从数据采集汇聚、数据治理、数据标注、数据质检、数据运营搭建全流程标准体系,聚焦高质量数据集在电力、医疗、石化、气象、交通、船舶等行业领域的应用。欢迎各行业以及高质量数据集相关单位与标委会共同落地标准,助力行业高质量发展。


如您有意向成为标准的起草单位/起草人请扫描二维码填写相关信息

图片

【声明】内容源于网络
0
0
信创云联
专注“人工智能+”、“数据要素+”、信息技术等领域标准化建设工作,致力于通过标准化活动构建产业生态,助力最新科技成果和产业实践转化为解决方案,引领产业全链条协同创新,推进行业高质量发展。
内容 77
粉丝 0
信创云联 专注“人工智能+”、“数据要素+”、信息技术等领域标准化建设工作,致力于通过标准化活动构建产业生态,助力最新科技成果和产业实践转化为解决方案,引领产业全链条协同创新,推进行业高质量发展。
总阅读0
粉丝0
内容77