随着 “人工智能 +” 行动的深入推进,高质量数据集作为人工智能发展的重要基石,其重要性日益凸显。国家数据局发布的 104 个高质量数据集典型案例,涵盖了多个行业和领域,为各单位提供了宝贵的参考和借鉴。本文将对这些案例进行详细解析,并深入探讨各行业领域的经济社会效益价值。
一、典型案例主体类型分析
(一)央企主导格局显著
在 104 个高质量数据集典型案例中,央企申报的案例有 52 个,占比达 50%。央企在能源、通信、交通等关键基础设施领域具有明显的数据集建设优势。例如,在能源行业,中国南方电网有限责任公司的电网调度负荷预测高质量数据集、国家石油天然气管网集团有限公司油气调控中心的天然气管网运行高质量数据集等,都为能源的安全运维和效率提升提供了有力支持,服务于 “双碳” 目标下的能源结构优化。在通信行业,中国电信集团有限公司的中国电信网络大模型高质量数据集、中国移动通信集团有限公司的中国移动人时空三元组高质量数据集等,支撑了 5G、AI 大模型等新一代信息技术的落地。
(二)部委及下属机构侧重公共服务与科研
国家部委及下属机构(含事业单位)申报的案例有 31 个,占比为 29.8%。这些案例主要集中在公共领域和基础科研方面。比如,在公共卫生领域,浙江省疾病预防控制中心的高质量电子疾病档案(EDR)数据集,为疾病防控提供了重要的数据支持;在基础科研领域,中国科学院计算机网络信息中心的 scCompass:亿级多物种单细胞转录组 AI 数据集、中国科学院青藏高原研究所的地球大数据创新青藏高原高质量数据集等,有助于推动生命科学和地球科学等领域的研究进展。
(三)民企聚焦细分创新领域
民企申报的案例有21个,占比为 20.2%。民企案例多分布在 AI 应用、垂直行业等细分创新领域。例如,在医疗健康行业,武汉兰丁云医学检验实验室有限公司的宫颈细胞 AI 辅助诊断高质量数据集,为宫颈癌的早期诊断提供了高效、准确的技术支持;在农业行业,内蒙古八爪智能科技有限公司的农作物芽期、幼苗期高质量数据集,有助于提高农业种植的精细化管理水平。
二、各行业领域典型案例解析及经济社会效益价值
(一)能源行业
能源行业有18个案例入选,领域细分包括电力、石油天然气、风电等。这些案例多由央企主导,数据集聚焦 “安全运维 + 效率提升”,服务于 “双碳” 目标下的能源结构优化。
例如,中国南方电网有限责任公司的电网调度负荷预测高质量数据集,通过对电网负荷数据的收集、整理和分析,建立了准确的负荷预测模型,能够提前预测电网负荷的变化情况,为电网的调度和运行提供了科学依据,有效提高了电网的运行效率和可靠性,降低了电网的运行成本。据测算,类似的电力作业安全管控图像高质量数据集每年可为电网企业节省成本超 1.2 亿元。
(二)通信与信息技术行业
通信与信息技术行业有17个案例,领域细分包括通信网络、AI大模型、语音/图文数据、时空数据等。该行业央企与民企协同,数据集技术属性强,支撑 5G、AI 大模型等新一代信息技术落地。
以北京海天瑞声科技股份有限公司的全球多口音英语高质量语音数据集为例,该数据集收录了来自不同地区、不同口音的英语语音数据,为语音识别技术的研发提供了丰富的训练数据,有助于提高语音识别系统的准确性和泛化能力,推动了语音识别技术在全球范围内的应用和发展,具有显著的经济效益和社会效益。
(三)交通行业
交通行业有14个案例,涵盖智慧航运、轨道交通、公路基建、物流等领域。其核心特征是覆盖 “水运 + 陆运 + 物流” 全链条,央企主导基建类数据,民企补充物流市场化数据。
长江水上交通监测与应急处置中心的长江智慧航运高质量数据集,通过对长江航运数据的实时监测和收集,实现了对长江航运的智能化管理和调度,提高了航运效率和安全性,降低了物流成本,促进了长江经济带的发展。
(四)医疗健康行业
医疗健康行业有8个案例,包括疾病诊断、公共卫生、体征监测等领域。公共卫生类数据由疾控机构主导,AI 辅助诊断类数据以民企和央企合作模式为主,数据标注精度要求高。
武汉兰丁云医学检验实验室有限公司的宫颈细胞 AI 辅助诊断高质量数据集,利用人工智能技术对宫颈细胞图像进行分析和诊断,大大提高了宫颈癌的诊断效率和准确性,为宫颈癌的早期筛查和治疗提供了有力支持,有助于降低宫颈癌的发病率和死亡率,具有重要的社会效益。武汉的 3 个医疗健康领域高质量数据集已支撑 9 个医疗行业垂类大模型研发应用,实现销售收入、技术服务收入等直接经济效益约 1.8 亿元。
(五)农业行业
农业行业有7个案例,涉及种植监测、作物研究、农业供应链等领域。该行业结合 “遥感 + 物联网” 技术,数据集聚焦 “从种植到供应链” 的全流程数字化,服务乡村振兴。
中国农业科学院农业信息研究所的农业典型作业场景多模态数据集,通过对农业种植过程中的各种数据进行采集和分析,为农业生产提供了精准的决策支持,有助于提高农业生产效率和农产品质量,促进农业现代化发展,增加农民收入。
(六)应急与安全行业
应急与安全行业有6个案例,包括地震监测、森林防火、灾害预警、反诈等领域。以国家部委和科研院所为核心,数据集强调 “监测 + 预警 + 处置” 的应急响应能力。
应急管理部大数据中心的应急管理 “久安” AI 大模型高质量数据集,整合了应急管理领域的各种数据资源,通过人工智能技术实现了对突发事件的快速监测、预警和处置,提高了应急管理的效率和水平,保障了人民生命财产安全。
(七)海洋与气象行业
海洋与气象行业有6个案例,涵盖海洋环境、气象预测、海洋灾害等领域。数据覆盖 “全球 + 区域”,多由气象、海洋部门与科研机构联合建设,支撑气候研究与灾害防控。
国家海洋信息中心的中国全球海洋融合数据集 1.0,整合了全球海洋的各种数据资源,为海洋科学研究、海洋资源开发、海洋环境保护等提供了重要的数据支持,有助于提高我国在海洋领域的科学研究水平和应对海洋灾害的能力。
(八)工业制造行业
工业制造行业有5个案例,包括芯片封装、建筑机器人、钢铁冶金、核电设备等领域。聚焦 “智能制造 + 质量检测”,数据集多服务于工业设备运维与生产流程优化。
东北大学的芯片陶瓷封装基板表面缺陷二维数据集,通过对芯片陶瓷封装基板表面缺陷数据的收集和分析,建立了缺陷检测模型,能够快速、准确地检测出芯片陶瓷封装基板表面的缺陷,提高了芯片封装的质量和可靠性,降低了生产成本。
(九)教育行业
教育行业有3个案例,涉及教育算法诊断、教育数据服务等领域。以 “教育公平 + 个性化学习” 为目标,结合 AI 算法提升教育质量。
北京师范大学和中国信息通信研究院的数字教育应用算法智能诊断公共数据集,通过对教育数据的分析和挖掘,为教育教学提供了智能诊断和个性化学习建议,有助于提高教育教学质量,促进教育公平。
(十)科研与基础数据行业
科研与基础数据行业有3个案例,包括单细胞研究、DNA 甲基化、青藏高原研究等领域。由中国科学院主导,数据集服务于生命科学、地球科学等基础研究领域,数据规模大、科学性强。
中国科学院北京基因组研究所的面向人群复杂特征的高质量 DNA 甲基化数据集,为生命科学研究提供了重要的数据资源,有助于深入了解人类疾病的发生机制和遗传规律,为疾病的诊断和治疗提供新的思路和方法。
(十一)政务与公共服务行业
政务与公共服务行业有 3 个案例,包括政务热线、信用档案、空间治理等领域。聚焦 “政务效率提升 + 公共服务优化”,数据多来源于政府部门与央企合作。
南京莱斯信息技术股份有限公司的公共信用档案高质量数据集,通过数据全链条精细化治理,构建了覆盖市场主体的公共信用档案,已对接 47 个部委、31 个省级单位及兵团,截至今年 6 月,累计归集数据超 800 亿条,覆盖 1.8 亿以上社会法人和 8 亿自然人,年增量稳定在 20 亿条以上。该数据集广泛应用于政务服务、民生领域、优化营商环境、社会治理等领域,有效提升了行政管理效能,降低了市场运行成本。
(十二)文体文旅行业
文体文旅行业仅有1个案例,即咪咕文化科技有限公司聚焦 “技术 + 场景” 打造的文体文旅高质量数据集。结合 “5G+VR” 技术,数据集服务于文化、体育、旅游场景的数字化体验升级。
该数据集通过对文化、体育、旅游等领域的数据进行采集和整合,利用 “5G+VR” 技术为用户提供了沉浸式的数字化体验,丰富了人们的文化生活,促进了文体文旅产业的融合发展。
三、结语
国家数据局发布的 104 个高质量数据集典型案例,展示了我国在不同行业和领域的数据资源整合与应用成果。这些案例不仅为各单位提供了可借鉴的经验和模式,也为我国人工智能产业的发展提供了有力的支撑。通过对各行业领域典型案例的经济社会效益价值分析,可以看出高质量数据集在推动行业发展、提升社会治理水平、保障人民生命财产安全等方面发挥了重要作用。未来,随着数据要素市场的不断完善和人工智能技术的持续创新,高质量数据集将在更多领域发挥更大的价值。
高质量数据集标准化建设
当前人工智能高质量数据集建设成果与挑战并存。截至2025年6月,我国已建成超3.5万个高质量数据集,总量超400PB,交易规模近40亿元,在多部门、省市及科研机构协同下,支撑了163个国产AI大模型发展;但同时存在目标模糊、路径碎片化、技术薄弱等问题,且供需不匹配、企业缺方法、无统一质量标准。
推进数据集标准化至关重要。它能从评估、技术层面提升数据质量,优化AI模型性能;解决多源数据融合难题,降低处理成本;打破数据壁垒,促进共享流通以推动AI与行业融合;还能规范数据全流程,明确版权与隐私保护,保障应用合法安全。
目前标委会正在结合高质量数据集市场需求和实践经验,从数据采集汇聚、数据治理、数据标注、数据质检、数据运营搭建全流程标准体系,聚焦高质量数据集在电力、医疗、石化、气象、交通、船舶等行业领域的应用。欢迎各行业以及高质量数据集相关单位与标委会共同落地标准,助力行业高质量发展。
如您有意向成为标准的起草单位/起草人请扫描二维码填写相关信息

