大数跨境
0
0

高质量数据集——工业制造和医疗卫生应用场景

高质量数据集——工业制造和医疗卫生应用场景 大数据技术标准推进委员会
2025-11-06
0


(一) 场景概述

日前国家数据局正在组织开展高质量数据集典型案例征集,为高质量数据集的加速建设注入了一剂强心针。重点面向科学研究、工业制造、农业农村、智慧能源、交通运输、金融服务、医疗卫生、教育教学、商务领域、人力资源、文化旅游、应急管理、气象服务、绿色低碳、公共安全、城市治理、低空经济、具身智能、智能驾驶、智慧海洋等20多个行业和领域开展征集。


本报告通过对已公开发布的高质量数据集名单、数据交易所上架的数据集产品、开源数据集等内容梳理,从供给角度和应用领域角度分析高质量数据集的应用情况。


从供给角度来看,高质量数据集大多集中于开源社区、数据交易所、数据服务企业以及数据标注基地。魔搭、飞桨、天池、帕依提提、超神经、智源、和鲸、启智、聚数力等社区平台提供多类型公开数据集,适用于基础的人工智能模型任务。北京、深圳、贵阳等大数据交易所陆续建立高质量数据集专区,汇聚多模态优质训练数据。以海天瑞声、数据堂等为代表的数据服务商在原有业务的基础上进一步拓展丰富高质量数据集产品。四川成都、辽宁沈阳等7个标注基地目前也已形成高质量数据集上百个。


从应用领域来看,高质量数据集应用当前在工业制造、医疗卫生、交通运输领域较为集中。其次,低空经济、具身智能等创新应用也因产业发展驱动陆续涌现。下面以部分场景实践案例对高质量数据集的建设过程进行简要阐述,为业界提供参考。



(二) 实践案例


01

工业制造场景

工业制造场景数据集源于采集端存在大量设备采集的图片、音频、视频等非结构化数据,多应用于企业数字化转型的智能化场景,如生产制造、故障诊断、智能运维、设备状态监测等。

PART1
专栏1
紧固件失效案例数据集

案例背景:

航天产品保证是以技术风险识别与控制为核心,在航天器研制全过程进行的一系列有组织、有计划的技术和管理活动。以紧固件为代表的基础产品在装配及使用阶段必须满足航天产品及配套系统的安全、可用、可靠的要求,紧固件的选用控制除考虑其选用目录外,还应参考其失效案例,以历史经验教训为基础识别材料缺陷等风险薄弱环节,采取措施及时消减风险,提升任务成功率。


实践方案:

以紧固件为代表的航天基础产品保证数据集分为行业通识数据集和行业专识数据集两部分内容。行业通识数据集通过设置紧固件相关关键字使用爬虫在互联网数据集中获取,包括行业研究报告、标准规范、国内外专业书籍及手册、论文和专利等公开数据,用于在大模型中建立紧固件等基础产品相关的行业基本认知能力;行业专识数据集的数据来源有厂商研制过程中、紧固件产品试验验证阶段以及紧固件产品在轨服役使用阶段所发生的失效案例的记录,这部分数据涉及紧固件产品核心知识,需要采取恰当的数据安全防护手段来控制知悉范围。


紧固件产品保证的数据主要以非结构文本、参数表格及产品图片等形式存在。在数据处理阶段,采用MinerU等文本处理工具对数据进行格式转换,以行业标准QJ 3050A-2011《航天产品故障模式、影响及危害性分析指南》为依据,对紧固件产品的故障模式、故障原因、故障影响、处置措施等数据特征进行总结,建立标签体系。以大模型的提示工程技术为代表方法,对紧固件相关的失效数据进行信息提取及标注,并同时辅以专家校验,保证数据的高质量。经处理后形成结构化的紧固件产品故障模式及影响分析表。


为了进一步分析紧固件失效产品间同材料、同阶段、同类别等关联关系,将紧固件FMEA表数据组织成失效案例知识图谱的形式。除此之外,利用图检索增强技术对新增的专业手册等非结构化进行处理,自动提取标签体系中的实体和关系,连接上下文的文本块。在数据存储方面,采用了Neo4J图数据库、Milvus向量数据库和MongoDB非结构化文本数据库三库并行的方式对图数据、向量数据和文本数据分别进行存储应用。


最后,将专家图谱与图检索增强生成的图谱进行实体对齐与知识融合,作为紧固件专业问答和选型的支持和依据,增加失效案例警示等数据标签,对上装的相似紧固件产品推荐可能发生的风险点及处置措施。


应用效果:

紧固件失效案例数据集包括国内外典型案例300个以上,图谱化节点规模达上千规模,有效应用在航天基础产品多维度场景中。


紧固件智能问答模型:融合紧固件失效案例知识图谱的紧固件智能问答模型准确性达到95%以上,有效提升问答的准确性和专业性。


紧固件风险评估模型:以紧固件失效案例集为主要依据,通过分析紧固件连接结构在各个阶段存在的风险点进行分析,评估其风险等级,风险点覆盖率提升20%以上。


紧固件失效分析功能模型:紧固件失效分析是紧固件研究的重要分支,用户主要包括专业紧固件失效分析机构(如实验室)和紧固件使用单位故障归零,而紧固件失效案例可以帮助失效分析专家开展紧固件的失效分析,推荐类似的失效案例,专家可以根据推荐案例设计失效分析试验,大大提升了失效分析的效率,减少技术归零所需的时间10%以上。


紧固件智能选型模型:紧固件失效案例作为紧固件智能选型的重要支撑材料,可为设计师提供设计方案预警,避免有问题设计重复出现,并为紧固件预测性维护提供有效知识支撑,提升航天产品可靠性水平达40%以上。



02

医疗卫生场景

医疗卫生场景数据集是在传统专病数据集的基础上,结合影像数据、临床科研数据、医学术语、药品说明书等多模态数据,面向大模型应用的特定需求,进一步加工形成,用于辅助诊疗、辅助决策场景。

PART2
专栏2
医疗健康数据集

案例背景:

随着人工智能在医疗健康领域的深入应用,高质量数据集成为推动AI模型发展和提升医疗服务水平的关键。中国联通致力于构建医疗健康行业高质量数据集,以满足辅助诊断、药物研发和智能监管等应用场景的需求。此项建设时间为2024年2月至2024年12月。


实践方案:

中国联通通过与多家顶尖医疗机构和国家药监机构合作,构建了多模态医疗健康高质量数据集,并在数据治理、安全合规、标注自动化和数据增强等方面形成了一套完整的实践方案 。


(1)数据集建设与来源:

中国联通建设了四大类高质量数据集,总规模达到100TB 。


胸部CT影像数据集:联合北京胸科医院,完成20000余例影像标注,用于辅助肺结核专病判定模型 。


耳部CT影像数据集:联合全国知名耳鼻喉专科医院,完成5000余例高质量影像标注,用于早期听觉障碍及耳部异常智能识别模型 。


肾脏病慢病管理干预与临床科研数据集:依托北京大学第一医院,完成10000余例患者全周期数据标注,用于智能化慢病动态管理及预警模型 。


药品说明书数据集:联合国家药监机构,完成超过58000份药品说明书的文本与图像精准标注,用于智能解析与比对模型 。


各类数据均通过合法授权渠道获取,确保来源可溯、授权完整,并严格遵循《网络安全法》、《个人信息保护法》和《数据安全法》等国家法规进行去标识化处理,保护个人隐私 。


(2)数据治理与质量控制:

中国联通构建了从“领域问题、本体设定、知识规则、专家语义、论证评估、生产验证、入表入库”的全流程医疗数据治理工作思路 。


数据标准:联合专家团队制定17类胸部CT影像征象标签和标注标准 。


质量保障:采用双盲标注方式核查数据标注一致性,一致性评估结果超过95%;通过专家抽样(10%)审核方式核查标注结果准确性达到98%以上 。对于耳部CT影像,一级审核(自动预标注)和二级审核(主任审核)结果准确性达到95%以上 。


安全合规: 建立数据沙盒监管机制,实现“零信任”数据安全合规体系,确保原始数据不出域、数据可用不可见。数据脱敏覆盖率达到100% 。


(3)数据标注自动化与效率提升:

为了满足医疗行业数据标注的高效性和准确性需求,中国联通整合了文本、图像、语音、视频等不同模态的数据标注工具,并基于机器学习算法实现了自动化标注 。


影像标注:通过开发标签阈值自动化适配工具、自动插值方法和预标注算法,将胸部CT影像标注效率从原始的3-4小时/例提升到10-20分钟/例 。


文本标注:构建包含丰富医学术语的词典和规则库,并利用深度学习模型(如BERT)进行语义分析,提高标注的准确性和一致性.


(4)数据增强技术:

针对医疗健康数据,通过数据增广、特征工程、去伪影等技术手段,输出更大规模、更多维度、更高价值的数据集 。


数据增广:提供图像增强(旋转、缩放、翻转)、文本数据增量(同义词替换、数据扩充)、数值数据扰动等能力 。


特征工程:基于NLP技术和多模态识别技术提取药品说明书文本和影像数据特征,优化模型输入 。


去伪影:采用去伪影算法提升存在运动伪影、金属伪影的数据质量。


应用效果:

高质量数据集的构建直接支撑了多项AI模型的研发和应用,并取得了显著成效 。


胸部CT影像辅助筛查与诊断的肺结核疾病模型:研发的辅助肺结核专病判定模型准确率超过99.99% 。该模型填补了我国当前缺乏肺结核CT辅助检测类AI模型的空白,可用于医疗机构集中筛查、结核病防控机构主动筛查、区域“影像云”平台筛查等多种场景,有效提升结核病早期诊断水平与防控效果 。


慢性肾脏病早期筛查与干预专科模型:研发的智能化慢病动态管理及预警模型准确率突破99.9% 。该模型旨在提高基层医疗机构慢性肾脏病诊疗能力,将防控关口前移,并通过生成式AI提供诊断建议和个性化综合诊疗意见 。


耳部疾病多模态辅助诊断模型:研发的早期听觉障碍及耳部异常智能识别模型准确率达到99.95%以上 。该模型通过深度学习算法和影像组学技术,实现耳部病变的自动检出、解剖参数智能测量及病程动态追踪,显著提升诊断效率与一致性 。


药品知识库智能检索问答应用:基于国家药监局5.8万份药品说明书构建知识图谱,通过大模型解析能力实现说明书18类实体精准提取,准确率达98.7% 。该应用为公众提供药品用法、用量、药物禁忌等智能服务,并为医疗医生提供合理用药建议和指引,助力构建“研发-生产-流通-使用”各环节的智能管理体系。



本文节选自大数据技术标准推进委员会在“2025数据智能大会”上发布的《高质量数据集实践指南(1.0)》


报告介绍及全文下载链接如下:

重磅发布!《高质量数据集实践指南(1.0)》解读






中国信通院云计算与大数据研究所深入开展高质量数据集的质量评估、数据集建设、人工智能数据工程、数据标注平台、合成数据等相关的理论研究、标准规范、评估测试等工作,提供全面的建设咨询规划服务。愿会同行业各方凝聚共识、形成合力,共同推进高质量数据集建设,推动数据要素更好赋能经济社会高质量发展。

图片

联系方式:

中国信通院云大所

白玉真 

18810275013(微信同号)

baiyuzhen@caict.ac.cn 

图片

2025数据资产管理大会——高质量数据集与数据设施论坛亮点解析

高质量数据集:建设模式与核心环节拆解

关于我们

     中国通信标准化协会大数据技术标准推进委员会(CCSA TC601,简称:数标委/BDC),旨在凝聚产业链各个环节,识别和解决大数据发展面临的重大问题,开展大数据技术、数据资产管理、数据共享与流通、数据安全等共性基础标准研究,以标准推进工作为纽带,推动大数据与实体经济深度融合。欢迎加入我们的行列!

      入会咨询:白老师   13520285502

                       baizhimeng@caict.ac.cn


图片

【声明】内容源于网络
0
0
大数据技术标准推进委员会
识别和解决大数据与人工智能发展面临的重大问题,开展大数据与人工智能技术、数据资产管理、数据流通利用、数据安全、高质量数据集、大模型、智能体、知识管理等方向的共性基础标准研究,以标准推进工作为纽带,推动实体经济与数智技术深度融合。
内容 476
粉丝 0
大数据技术标准推进委员会 识别和解决大数据与人工智能发展面临的重大问题,开展大数据与人工智能技术、数据资产管理、数据流通利用、数据安全、高质量数据集、大模型、智能体、知识管理等方向的共性基础标准研究,以标准推进工作为纽带,推动实体经济与数智技术深度融合。
总阅读6
粉丝0
内容476