大数跨境
0
0

论文解读:《面向合规数据泄露通知的隐私数据分类法的自动扩展》

论文解读:《面向合规数据泄露通知的隐私数据分类法的自动扩展》 绿盟科技研究通讯
2025-09-30
13
导读:本文对论文《Automated Expansion of Privacy Data Taxonomy for Compliant Data Breach Notification》进行解析

一. 背景

1.1

法律与实践之间的差异

在隐私合规领域,一个悬而未决的关键问题是:如何验证实际的数据使用实践是否符合隐私法律、法规或政策的规定?这项任务的复杂性源于技术术语和法律定义之间的根本性语义脱节,这种术语上的异质性使得在数据泄露通知等高风险场景中,快速、准确地识别受影响的数据成为一个巨大的瓶颈。

1.2

现有分类法构建方法的局限性

为了应对这一挑战,研究人员构建了隐私数据分类法,以捕捉不同隐私数据类型和粒度级别之间的关系。然而,现有方法主要依赖于大量的人工工作或启发式规则 [1]。手动构建的方法虽然精确,但无法扩展,难以跟上新数据类型和新领域(如物联网)不断涌现的步伐 [1]。而基于启发式规则或模式的方法则面临稀疏性问题,因为它们要求上位词和下位词在上下文中共同出现,并且无法泛化到以前未知的术语 [1]。因此,需要一种可扩展、高效的自动化方法来构建和扩展隐私数据分类法,以实现对隐私数据实践更稳健、更准确的评估 [1]。

1.3

GRASP和Tracy的解决方案

本文所介绍研究通过提出GRASP和Tracy来解决上述挑战[1]。GRASP通过应用上位词预测技术来识别受限数据并将其整合到现有分类法中,为自动扩展隐私数据分类法提供了首个自动化的方法 [1]。随后,该研究通过一个名为Tracy的实际应用,展示了GRASP在GDPR合规数据泄露通知任务中的有效性[1]。这种将核心技术创新(GRASP)与具体应用(Tracy)相结合的方法,有力地证明了该研究在理论和实践层面的双重贡献。本文主要介绍作者提出的GRASP隐私数据分类法自动扩展方案。

*如无特殊说明,本文中的所有图表和方案内容均引用或参考自原论文[1]。

二.GRASP的设计与方法

2.1

系统概览与核心组件

GRASP系统包含两个主要模块:上位词预测模型和分类法扩展模块。其工作流程如下:当从语料库(例如数据泄露事件报告)中提取出新的数据对象时,GRASP使用其训练过的上位词预测模型来评估该数据对象与分类法中现有受限数据之间是否存在上位词关系。如果GRASP以高置信度识别出至少一个上位词,该数据对象便被确认为受限数据,并被集成到分类法中,与粒度级别最小的上位词相连,以保持分类法的连贯层级结构。

以“WiFi Position”(WiFi位置)为例,它是一个粗略位置(coarse location)的实例。GRASP首先评估它与“PII”之间是否存在上位词关系。一旦确认,它会遍历“PII”的后继节点(“location information”、“financial information”)。模型将识别出“location information”是唯一的上位词,其后继节点“coarse location”也是唯一的上位词。由于“coarse location”的后继节点(“precise location”、“IP address”)都不是“WiFi Position”的上位词,模型最终输出“WiFi Position”为一个新发现的受限数据,其上位词为“Coarse Location”,并以此新的上位词对来扩展分类法。

图1: 隐私数据分类法示例

2.2

粒度感知上位词预测模型:核心创新

该论文最核心的技术突破在于其对“粒度”在隐私数据上位词预测中的关键作用的深刻理解。现有的上位词预测方法(例如基于投影的模型)通常将所有上位词关系一视同仁。然而,在隐私领域,例如“精确位置”(precise location)和“粗略位置”(coarse location)都是上位词,但它们代表着不同的敏感度级别。如果一个模型无法区分这些粒度差异,就可能错误地将“精确位置”识别为“WiFi Position”的上位词。该研究提出的模型通过为不同的粒度级别学习不同的投影,从而解决了这一问题,其工作流程如图2所示。

图2: GRASP工作流程示例图

2.2.1

粒度感知聚类

上位词预测模型整体架构如图3所示。

图3: 上位词预测模型架构图

为了实现这一目标,模型首先将分类法中的上位词-下位词对根据不同的粒度级别进行聚类。它将受限数据v的粒度定义为一个介于(0,1)之间的值,该值捕捉了其在分类法中的相对位置,计算公式为:

其中dv是节点到根的深度,d’v是从v到其连接的叶节点的最长路径长度。这个公式为接近根节点的受限数据分配更大的粒度值,而为接近叶节点的受限数据分配更小的粒度值。随后,模型根据上位词-下位词对的粒度和词对嵌入的余弦距离把正例(hypernym pairs)和负例(non-hypernym pairs)进行KMeans分组,得到K⁺、K⁻个粒度簇,让模型为不同粒度学习不同的投影。通过这种方式,模型能够确保用于优化投影矩阵的词对具有相似的转换特性,从而避免了将不同粒度的关系混合在一起,显著提升了投影的精确度。

2.2.2

语义投影与分类

在粒度感知聚类之后,GRASP为每个聚类学习一个正交投影矩阵Mk,该矩阵能够将下位词嵌入向量映射到其对应的上位词嵌入向量,从而最小化投影距离。与以往忽视粒度信息的方法不同,GRASP为每个粒度级别学习独立的投影矩阵。

学习完所有投影矩阵后,GRASP使用一个基于注意力机制的分类器。该分类器首先对每个词对计算其基于所有粒度级别的投影偏移量,然后将这些偏移量与注意力权重相乘并进行加权求和,从而独立地对上位词和非上位词关系进行决策。

最终,模型通过一个两层的多层感知器进行训练。这种方法允许模型在进行最终预测时,能够从多个粒度级别的信息中提取加权特征,从而做出更精准的判断。

2.3

隐私数据分类法扩展

本部分主要是描述如何将未知的候选术语扩展到已有的隐私数据分类法中,即给定一个之前未知的候选术语u,GRASP通过确定u与分类法中任意受限数据之间是否存在上位词关系,来识别其隐私敏感性。具体过程为从根节点开始,通过广度优先搜索遍历分类法,生成候选上位词-下位词对并查询GRASP。如果首先数据t未被确定为候选词的上位词,则剪枝以t为根的子树。同时如果在分类法中的某条路径上至少有一个受限数据被识别为候选词的上位词,则将候选词连接到粒度最小的上位词,将其整合到分类法中。

另外,为了表征候选对与所学上位词关系类簇的契合程度,文章中计算了正类簇上注意力权重的熵。

熵值过大代表候选对与所学类簇距离较远,且关系粒度对模型来说较为陌生,即候选对不太可能具有上位词关系。因此正类簇注意力权重的熵可以衡量候选对之间上位词关系的置信度,熵值越低表示置信度越高。文中作者设置了一个阈值τ,当H(w) > τ时的肯定预测不被视为具有上位词关系。

三. 实验评估

3.1

数据集

研究人员使用了两个预先存在的隐私数据分类法来构建数据集:

隐私政策(PP)分类法:一个基于隐私政策构建的通用隐私数据分类法,包含680个受限数据和2,176个上位词关系。

物联网(IoT)敏感数据分类法:一个基于物联网隐私文档构建的领域特定分类法,包含76个数据项和138个上位词关系。

3.2

基线方法

原文中实现了多种上位词预测模型的基线方法,包括:

朴素基线:使用逻辑回归(LR)和多层感知器(MLP)对词嵌入的串联或偏移量进行分类;

最先进的上位词发现模型:包括SphereRE和MWP,以及它们的变体;

大语言模型(LLMs):采用了gpt-3.5-turbo-0125,通过精心设计的提示词直接进行上位词关系预测。

3.3

上位词预测评估

表1: 上位词关系识别的评估结果

上位词预测结果如表1所示,GRASP在两个数据集上均优于所有基线方法。特别值得关注的是,GRASP甚至超越了经过微调的GPT-3.5模型。这一结果表明,对于像隐私数据分类这样高度专业化、需要细致入微的领域知识的任务,一个利用领域特定结构信息(如粒度)而专门构建的模型,其表现可以优于大型的、通用目的的语言模型。这暗示了一种混合式方法的有效性:利用大型语言模型进行一般的语义理解,同时利用专门构建的模型来处理具有复杂结构和专业知识的特定任务。

表2: 消融实验

为了更深入地理解GRASP性能卓越的原因,研究人员进行了一项消融研究。结果如表2所示,引入粒度信息进行聚类是GRASP性能提升的最大贡献因素。特别是,结构相似性(即粒度)的作用(在PP和IoT数据集上F1分数分别提升了10.9%和25.8%)远大于属性相似性(分别提升了4.6%和3.9%)。此外,用于控制每个粒度感知投影权重的注意力机制也对模型性能产生了巨大影响(在两个数据集上F1分数分别提升了13.5%和21.4%)。

表3: 不同方案下的投影质量分析

不同方案下的平均投影距离数据如表3所示,能够看出GRASP学习到的投影矩阵具有最小的平均投影距离。这证明了GRASP的粒度感知聚类方法使其能够学习到比基线方法更精确、更有意义的下位词与上位词之间的转换关系。 

四. 总结

该项研究提出了一种名为GRASP的可扩展且高效的自动化方法,用于构建和扩展隐私数据分类法。GRASP的核心在于其新颖的、基于粒度感知的语义投影的上位词预测模型。该模型经过精心设计,能够超越现有最先进的上位词预测方法,显著提升了识别和整合新数据项的准确性,有效解决了隐私数据分类法自动扩展的难题。它证明了在特定、细微的领域中,一个利用领域特定结构信息的定制化模型可以超越通用的大型语言模型。


参考文献

[1] Qin Y, Xiao Y, Liao X. Automated Expansion of Privacy Data Taxonomy for Compliant Data Breach Notification[C]//ISOC Network and Distributed System Security Symposium. 2025.

内容编辑:苟桐

责任编辑:陈佛忠

本公众号原创文章仅代表作者观点,不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权,严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用,转载须注明来自绿盟科技研究通讯并附上本文链接。

关于我们


绿盟科技研究通讯由绿盟科技创新研究院负责运营,绿盟科技创新研究院是绿盟科技的前沿技术研究部门,包括星云实验室、天枢实验室和孵化中心。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。

绿盟科技创新研究院作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一,与清华大学进行博士后联合培养,科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、出版专业书籍等。

我们持续探索信息安全领域的前沿学术方向,从实践出发,结合公司资源和先进技术,实现概念级的原型系统,进而交付产品线孵化产品并创造巨大的经济价值。

长按上方二维码,即可关注我


【声明】内容源于网络
0
0
绿盟科技研究通讯
1234
内容 791
粉丝 0
绿盟科技研究通讯 1234
总阅读7.7k
粉丝0
内容791