数安智库专家简介
谢雄:天融信数据安全治理专家,DSI智库专家,具备10余年信息安全经验,从事数据安全治理的研究4年,CISP-DSG 及CISP-DSO 教材和试题的主要设计者之一。曾发表数据安全相关软文 10 余篇、数据安全评估相关专利 1 份,参与了《组织数据安全治理能力建设指南》、《数据安全治理实践指南(2.0)》、《区块链与数据安全治理白皮书》、《智能联网汽车数据安全评估指南》等多项国家和行业标准的编写。
1
概述
随着信息技术的高速发展,数字化转型转推动数据要素共享流通,合理地挖掘和利用数据中隐藏的信息,能够创造出巨大的市场价值。然而在大数据及人工智能的背景下,国内外信息安全形势越来越严峻,敏感数据泄漏事件的频繁发生,给用户的隐私、国家的安全和社会的稳定带来了直接影响。
敏感数据的自动识别是数据安全防护中至关重要的一环,只有准确地识别出敏感数据才能有效保护个人隐私和企业敏感信息。因此,如何有效识别出敏感数据是目前数据安全领域研究的重要问题。本文从敏感数据识别的现状和主要技术进行分析,试图给企业在开展敏感数据的识别工作带来一定启发。
2
国内敏感数据识别现状分析
由于国家层面对于个人信息的强监管,个人敏感信息泄露的安全事件可能引发行政处罚或刑事责任,国家标准层面对于个人敏感信息的范围定义较为明确。因此,大多企业对于敏感数据的识别范围主要聚焦在个人信息。
然而,不同组织对敏感数据的归类和界定方式通常都有显著差异,敏感数据的特征难以明确定义和规范,对于企业业务敏感数据,大多只能基于分类分级的结果,将级别较高的数据定义为敏感数据从而进行防护。识别过程主要以业务人员个人的理解进行主观判断,误差较大,对于海量数据的识别效率较低。随着人工智能的兴起,作者认为通过大模型和机器学习对敏感数据进行识别,是目前解决敏感数据自动化识别的主要研究方向。
3
敏感数据识别技术分析
敏感数据识别主要是对数据库中的表和字段信息进行自动识别,并生成相关匹配文件,用于确认。检测过程需要解决对数据提取与归一化,检测数据格式与属性,并对数据内容通过关键字、正则表达式、数据标识符、文档指纹、结构化数据指纹、机器学习特征等规则进行检查,判断是否为敏感信息。
传统的敏感数据识别技术有三种:正则表达式检测(标示符)、关键字检测、文档属性检测。比较常见的是正则表达式检测和关键字匹配的方法。此两种方法可以对明确的敏感信息内容进行检测;但对于不具备特征值的姓名、地址等信息匹配的准确度较低。为了解决这一问题,在传统的敏感数据检查技术上,可以加入语义识别和机器学习、人工智能等判定方法,以解决了无固定格式的数据识别问题。
3.1正则表达式检测技术
正则表达式是由普通字符(例如字符a 到 z)以及特殊字符(称为"元字符")组成的文字模式。可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。
正则表达式检测法是当前业内最常用的识别方法,通过对数据内容进行特征提取和抽象,形成正则表达式,对数据内容进行正则匹配。
例如:
身份证号正则表达式为
r'^[1-9]\d{5}(18|19|20)\d{2}((0[1-9])|(1[0-2]))(([0-2][1-9])|10|20|30|31)\d{3}[0-9Xx]$';
正则表达式还可以对数据标识符进行检测。例如:身份证是18位数字,而18位数字不一定是身份证。身份证的后四位数字用来对身份证进行校验以检验给定的18位数字是否是正确的身份证。同样有很多类似的数据,比如银行卡号,这类带有验证信息并通过公开/私密的算法能够完成数据验证的数据,为数据标识符。传统的数据识别方法便是匹配这些数据标识符。看是否满足规则要求,大部分数据在数据满足这些规则的时候认为它是特定标识的数据。
3.2关键字匹配技术
基于关键字的敏感数据识别通常是通过读取数据库的表和字段的描述,匹配固定关键字、关键字对、关键字组以识别敏感数据。通常需要配合关键字权重、顺序、组合形式等多种参数使用,这种方法和语义识别方法结合可更好的提升识别准确率和效率。
常见的语义识别中文分词技术常见的有两大类:
1.机械分词技术、基于统计的序列标注技术。机械分词技术操作简单、方便,比较省心,但是对于歧义词以及未登录词的效果并不是很好;
2.统计模型的序列标注方法,对于识别未登录词拥有较好的识别能力,而且分词精度也比较大,同时这个方法可以不分中文、英语,着重看在语言前后顺序。

本文将中文分词技术应用于数据库敏感数据的关键词识别判定中。首先,判断数据库表名称和字段名称的描述信息中是否含有中文字符,对于含有中文字符的字段值进行分词。然后,将其分解为子单词和单词属性 ( 名词、动词等 )。针对分解后的名词在敏感数据特征词词典中进行匹配。最后判定是否包含有敏感数据。
3.3指纹匹配技术
指纹匹配技术是基于数据或文件指纹,从样本数据中提取并生成指纹特征库,然后以同样的方法从待检测文档或内容中提取指纹,将得到的指纹与指纹库进行匹配,对比其相似度,进行指纹检测和识别,从而实现敏感数据匹配。此方法的难点在于数据或文件指纹的提取与学习,首先要提供含有企业想要保护的特定内容的文档集作为训练数据。然后对这些文档生成指纹,形成指纹库,并配置数据检测规则用于检测受保护的文档。
指纹匹配的过程包括指纹提取、指纹生成、指纹存储、指纹匹配、四个部分,如下图所示:

3.4机器学习特征提取与检测技术
机器学习通常使用有监督学习算法来进行,包含以下几个关键步骤:
1.数据准备:收集包含敏感数据和非敏感数据的训练集,并为每个样本标记相应的类别。这个阶段的数据收集和标记对模型的训练起着至关重要的作用。
2.特征提取:从原始数据中提取关键特征,以便机器学习算法更好地理解数据。然后基于分词技术、语义分析等技术手段对数据内容进行处理后,进行特征匹配。
3.选择算法:根据任务的性质和数据的特点,选择适当的有监督学习算法。通常可采用的算法包括KNN、SVM、Boosting等。
4.模型训练:利用训练集对选定的算法进行训练,使模型能够通过学习样本数据的特征和标签之间的关系,调整参数以提高对新数据的泛化能力。
5.优化和评估:对训练完成的模型进行优化,通过调整参数来提高性能。使用独立的测试数据集对模型进行评估,以确保其在未见过的数据上的泛化效果。
6.部署和监测:将经过训练和评估的模型部署到实际应用中,用于实时监测和识别敏感数据。实施监测机制,定期评估模型的性能,以适应数据分布的变化和新出现的敏感信息。
此方法对于技术要求高,需要提供大量的样本数据进行学习以保证最终的识别效果,优势是充分学习后识别准确率高,且具备自学习能力,可适用的数据内容范围广。
4
总结与展望
正则表达式检测技术、关键字匹配技术、指纹匹配技术、机器学习特征提取与检测技术以及中文分词技术等多种手段相互交织,构成了一个多层次、多角度的敏感数据防护网络。
在这一技术格局中,正则表达式检测技术通过规则模式的定义,具有较强的准确性,适用于一些规律性强的敏感数据。关键字匹配技术则通过设定关键词识字典,能够快速定位和识别敏感信息,具备高效性的特点。指纹匹配技术则更强调数据的唯一性,通过指纹码的生成和匹配,实现对敏感信息的高效检测。机器学习技术则通过不断学习和优化模型,使得系统具备更强大的自适应性和泛化能力,适用于处理更为复杂和动态的场景。中文分词技术则针对中文语境,提供了更为精准的词汇切分,有助于更精准地定位敏感信息。
然而,这些技术在应用中也面临一系列的挑战。其中,准确性和效率的平衡、技术的更新和升级等问题都需要我们不断进行深入思考和探讨。随着技术的不断演进,未来,我们可以期待人工智能技术在敏感数据自动识别领域的广泛应用。通过深度学习和机器学习等技术的应用,更好地适应各种复杂多变的数据形式,提高敏感数据自动识别的准确性和效率。
声明:本文仅代表企业及专家个人观点,不代表本公众号及其运营单位意见或立场。
往期回顾
#重磅!《数据安全风险治理成熟度评价模型》发布,征集首批预评估单位

