基于差分隐私的安全机制- 大数跨境

首页

基于差分隐私的安全机制

数组智控产业发展科技院

2021-08-31

导读：差分隐私采用了一种随机机制，使得当输入中的单个样本改变之后，输出的分布不会有太大的改变。例如，对于差别只有一

差分隐私采用了一种随机机制，使得当输入中的单个样本改变之后，输出的分布不会有太大的改变。

例如，对于差别只有一条记录的两个数据集，查询它们获得相同的输出的概率非常接近。这将使用户即使获取了输出结果，也无法通过结果推测出输入数据来自哪一方。

差分隐私

在现有的隐私保护方法中，由于差分隐私对隐私损失进行了数学上的定义，并且其实现过程比较简捷，系统开销更小，所以得到了广泛的应用。差分隐私最开始被开发用来促进在敏感数据上的安全分析。随着机器学习的发展，差分隐私再次成为机器学习社区中一个活跃的研究领域。来自差分隐私的许多令人激动的研究成果都能够被应用于面向隐私保护的机器学习。

差分隐私的定义

差分隐私是由Dwork在2006年首次提出的一种隐私定义，是在统计披露控制的场景下发展起来的。它提供了一种信息理论安全性保障，即函数的输出结果对数据集里的任何特定记录都不敏感。因此，差分隐私能被用于抵抗成员推理攻击。

按照数据收集方式的不同，当前的差分隐私可以分为中心化差分隐私和本地化差分隐私，它们的区别主要在于差分隐私对数据处理的阶段不同。中心化差分隐私依赖一个可信的第三方来收集数据，用户将本地数据发送到可信第三方，然后在收集的数据中进行差分隐私处理。但可信的第三方在现实生活通常是很难获得的，因此本地化差分隐私将数据隐私化的工作转移到每个参与方，参与方自己来处理和保护数据，再将扰动后的数据发送到第三方，由于发送的数据不是原始数据，因此也就不要求第三方是可信的。

差分隐私的实现机制

目前实现差分隐私保护的主流方法是添加扰动噪声数据。前面提到，差分隐私可以分为中心化差分隐私和本地化差分隐私，其中：中心化差分隐私采用的扰动机制可以包括拉普拉斯噪声机制、指数噪声机制等；而本地化差分隐私一般通过随机响应（Randomized Response）来实现（随机响应是1965年由Warner提出的一种隐私保护技术）。

差分隐私常用的三种机制