高质量数据集标准化建设
当前人工智能高质量数据集建设成果与挑战并存。截至2025年6月,我国已建成超3.5万个高质量数据集,总量超400PB,交易规模近40亿元,在多部门、省市及科研机构协同下,支撑了163个国产AI大模型发展;但同时存在目标模糊、路径碎片化、技术薄弱等问题,且供需不匹配、企业缺方法、无统一质量标准。
推进数据集标准化至关重要。它能从评估、技术层面提升数据质量,优化AI模型性能;解决多源数据融合难题,降低处理成本;打破数据壁垒,促进共享流通以推动AI与行业融合;还能规范数据全流程,明确版权与隐私保护,保障应用合法安全。
目前标委会正在结合高质量数据集市场需求和实践经验,从数据采集汇聚、数据治理、数据标注、数据质检、数据运营搭建全流程标准体系,聚焦高质量数据集在电力、医疗、石化、气象、交通、船舶等行业领域的应用。欢迎各行业以及高质量数据集相关单位与标委会共同落地标准,助力行业高质量发展。
如您有意向成为标准的起草单位/起草人请扫描二维码填写相关信息

