大数跨境
0
0

基于大模型的AI智能全析分类分级应用——河南移动实践分享

基于大模型的AI智能全析分类分级应用——河南移动实践分享 数智安全行动计划
2025-05-28
2
导读:河南移动结合大模型技术打造“AI智能全析分类分级系统”。



河南移动结合大模型技术打造“AI智能全析分类分级系统”。该系统通过融合规则引擎与大模型算法,显著提升数据分类精准度与效率,解决传统方法在复杂数据场景下的局限性,为数据安全治理提供智能化、自动化解决方案。该案例入选2024大数据“星河”案例-数据安全赛道。



问题

随着数字化转型加速,企业数据量激增、类型多样化,传统数据分类分级方法面临严峻挑战:第一,依赖人工规则匹配,处理海量复杂数据时易漏判、误判,初始准确率仅10%-20%;第二,非结构化数据(如文本、图像、视频)占比攀升,传统技术难以高效解析


行动


河南移动基于现有的数据安全管理平台工具,深度集成AI大模型技术,将传统基于规则的分类分级引擎与大模型分类分级引擎进行智能融合。基于规则的引擎用于处理简单、明确的结构化数据,如营业库、经营分析库中的数据,能够确保分类的准确性和稳定性。而大模型引擎则能够利用海量数据和深度学习技术,提升对新类型、新场景数据的识别能力,用于处理复杂、模糊的数据模式,主要为半结构化数据,如信令数据、话单详单数据、用户标签数据等;以及非结构化数据,如用户上网行为数据、用户图像、客户交互数据等。

 

结果


通过引入大模型技术,使得河南移动的数据分类分级运营工作更加智能化、自动化和高效化,敏感数据识别准确率从传统方法的20%提升至90%,数据处理效率提高3倍。


01 案例企业


中国移动通信集团河南有限公司(以下简称河南移动”)是中国移动有限公司在河南设立的全资子公司。河南移动主要经营移动话音、数据、IP 电话、多媒体和互联网等业务,拥有“全球通”、“神州行”、“动感地带”等知名品牌。作为“中国移动通信”网络的有机组成部分,河南移动经过多年的建设和发展,建立了一个覆盖全面、质量可靠、功能完善、业务丰富、管理先进、世界一流的综合通信网络。


02 项目背景


数据成为企业经济基础中生产力必不可少的一部分,不仅具备生产价值,还具备极高的经济价值。当前数字化转型过程中,运营商企业数据量以及数据类型的多样化呈现爆发式增长趋势。这些数据中包含了大量的敏感信息,如何有效地识别、分类、分级并保护这些数据成为了通信运营商面临的重大挑战。


 

现阶段,在数据安全建设方面,河南移动主要面临如下问题:


第一,数据量激增。传统的数据分类分级方法主要依赖于人工或简单的规则匹配,这些方法在处理海量、复杂、多样化的数据时显得力不从心,容易出现漏判、误判等问题。


第二,数据类型的多样化。数据类型从传统的结构化数据(如数据库中的数据)扩展到了半结构化(如XML、JSON等格式的数据)和非结构化数据(如文本、图片、视频、音频等)。这些数据格式的多样性增加了数据管理的复杂性和难度


第三,敏感数据保护需求。在海量数据中,包含了大量的敏感信息,如个人信息、商业秘密、国家机密等。这些敏感信息的泄露可能会对企业造成严重的经济损失和声誉损害,甚至触犯法律法规。


03 解决方案


基于现有的数据安全管理平台工具,深度集成AI大模型技术,创新性地将基于规则的分类分级引擎与大模型分类分级引擎进行智能融合,实现了两者优势互补。基于规则的分类分级引擎用于处理简单、明确的业务规则,能够确保分类的准确性和稳定性,而大模型分类分级引擎则能够利用海量数据和深度学习技术,提升对新类型、新场景数据的识别能力,用于处理复杂、模糊的数据模式。规则引擎和大模型引擎的融合,结合两者的优点,互为补充,实现更高效、更精准的数据分类分级。



大模型结果和基于规则引擎结果进行智能融合,互为补充,进一步提升初始准确率。规则的准确率在20%+, 大模型准确率70%+, 二者的关注点不同,融合后的准确率可以达到90%以上。


整体架构:


1)大模型推理服务:包括大模型本身、大模型运行容器,容器通过http接口提供大模型基本的问答服务。


2)大模型分类分级引擎:

  • 通过数据库协议、ftp协议等获取被识别的数据

  • RAG能力,提供向量数据库,存储分类分级的标准

  • 通过RAG能力,搜索到与数据相似的类别供选择

  • 调用大模型的能力,推断数据的分类和级别

  • 解析大模型的结果,形成结构化数据向数管平台返回结果。


3)数管平台


4)识别扫描引擎


5)数据源



方向一:基于规则引擎的数据分类分级能力


数据分类不应从数据特征去推断分类,而应从分类去挖掘数据特征集。通过发现三大引擎,多维度指标判定引擎识别数据特征,通过向量化分类推测类型判定,再通过用户决策自动反馈机制,提升发现和识别的精准度。


 

方向二:基于大模型引擎的富文本半结构化数据识别


富文本识别: 通过对富文本数据( XLS,XLSX,PDF,DOC,DOCX,PPT,PPTX,XML,JSON,DAT格式文件)进行解析(包含纯文本数据及图片数据),通过结合命名实体抽取和文字识别算法,实现敏感数据匹配,达到自动化发现高敏感数据类型的效果。


文件解析:实现XLSXLSXPDFDOCDOCXPPTPPTXXMLJSONDAT的文件属性、文件内容的解析适配。


数据预处理:对原始数据进行清洗、分词、去停用词等预处理,以便后续的处理和分析。

特征提取:使用基于规则的方法从文件中提取出相关特征,如:PPT模版信息页眉页脚、红头文件、文件内容标题信息等。


实体识别:使用基于规则的方法从文本中提取出具有特定意义的实体,用于后续信息提取。



方向三:基于大模型引擎的非结构化数据识别


通过对图像数据进行预处理转换为标准格式,利用swintransformer算法,实现敏感图片分类,针对不同业务场景下的数据和需求特性,自由定制黑白名单,快速调整识别标签和松紧度,灵活调优识别效果。可对敏感图像快速定位,更好的发现高敏感数据类型的效果。



方向四:分类分级结果稽核


为了保证数据的准确性,通过对核查结果的AI稽核,自动校验人工核查后的异常数据,实现对提升数据分类分级准确率和加强恶意降级的风险防范。AI定期的抽样查验的方式自动化验证和检查,生成查验报告,指出需要整改修正的的数据类型和数据位置。 


- AI稽核:利用人工智能技术对业务数据进行上下文的智能分析,以提高稽核工作的效率和准确性。

- AI查验:利用人工智能技术对各种数据分类分级进行自动化验证和检查。处理人工核查后的大量信息,减少人工干预,提高查验效率。确保真实性、准确性和合规性。


 

04 价值与效果


在河南移动内部,通过此技术,在数据识别精准度方面取得了显著成果。非结构化敏感信息识别准确率大幅提升,比如说原来多媒体、图像等数据内容识别不准确的,目前都可精确识别到数据内容,为非结构化敏感数据的自动化识别提供了技术支撑,有效提升了企业数据管理工作的安全性和可靠性。


我们创新性地提出智能融合分类算法,将基于规则的分类、统计分类以及大模型推理等多种方法相结合,通过智能决策引擎选择最优分类策略,这是数据分类分级技术的重要突破,适应了复杂多变的数据环境。


从社会效益角度看,基于分类分级结果,企业可对敏感信息脱敏处理,保护用户信息安全与隐私,符合数据安全法规要求,有助于构建安全、可信的数据生态环境。


在经济效益方面,大大缩短了数据分类分级管理和涉敏信息梳理工作时间,每月节省大量人工成本,显著提高了企业运营效率。


在数据量激增与安全合规要求日益严苛的背景下,基于AI大模型的数据分类分级技术为现代企业提供了智能化治理的新范式。该技术通过深度学习与多模态数据分析能力,突破传统规则引擎的局限性,能够深入理解非结构化文本、图像、音视频等复杂数据的语义内涵与潜在关联,实现细粒度内容解析与风险识别。其核心优势在于动态构建数据语义网络,通过持续学习机制自动适配不同行业的合规标准与业务场景需求,显著提升敏感信息识别的覆盖广度与逻辑关联性。同时,基于知识图谱的层级化标签体系,不仅为数据安全管控提供精准锚点,更通过打通数据资产与业务场景的映射关系,激活沉睡数据资源的应用潜能。从实践效果看,这种技术驱动的治理模式正在重构数据生命周期管理流程——在降低人工标注成本的同时,为数据安全防护、跨域流通共享以及AI场景落地构建了可信基座,推动企业从“合规防御”向“数据价值创造”的战略转型。


 

本方案具有广泛的可推广性。首先,具备高效的数据处理能力,能够快速处理大量数据并生成准确结果,满足企业对数据处理效率的要求。其次,有效降低运营成本,减轻人工负担,降低合规成本,为企业节省开支。高度自动化和智能化的特点,减少了人工干预,降低了错误率,提高了数据管理的质量和可靠性。此外,该解决方案可跨领域应用,适用于金融、医疗、教育、制造业等多个行业领域,具有很高的应用价值,有望为更多企业的数据管理带来变革。




【声明】内容源于网络
0
0
数智安全行动计划
围绕数据安全与人工智能安全相关工作,从政策解读、标准建设、评估测试、咨询服务、人才培训等方面搭建数智安全交流平台,构建数智安全专业社群。
内容 342
粉丝 0
数智安全行动计划 围绕数据安全与人工智能安全相关工作,从政策解读、标准建设、评估测试、咨询服务、人才培训等方面搭建数智安全交流平台,构建数智安全专业社群。
总阅读746
粉丝0
内容342