
差分隐私采用了一种随机机制,使得当输入中的单个样本改变之后,输出的分布不会有太大的改变。
例如,对于差别只有一条记录的两个数据集,查询它们获得相同的输出的概率非常接近。这将使用户即使获取了输出结果,也无法通过结果推测出输入数据来自哪一方。

差分隐私
在现有的隐私保护方法中,由于差分隐私对隐私损失进行了数学上的定义,并且其实现过程比较简捷,系统开销更小,所以得到了广泛的应用。差分隐私最开始被开发用来促进在敏感数据上的安全分析。随着机器学习的发展,差分隐私再次成为机器学习社区中一个活跃的研究领域。来自差分隐私的许多令人激动的研究成果都能够被应用于面向隐私保护的机器学习。
差分隐私的定义
差分隐私是由Dwork在2006年首次提出的一种隐私定义,是在统计披露控制的场景下发展起来的。它提供了一种信息理论安全性保障,即函数的输出结果对数据集里的任何特定记录都不敏感。因此,差分隐私能被用于抵抗成员推理攻击。
按照数据收集方式的不同,当前的差分隐私可以分为中心化差分隐私和本地化差分隐私,它们的区别主要在于差分隐私对数据处理的阶段不同。中心化差分隐私依赖一个可信的第三方来收集数据,用户将本地数据发送到可信第三方,然后在收集的数据中进行差分隐私处理。但可信的第三方在现实生活通常是很难获得的,因此本地化差分隐私将数据隐私化的工作转移到每个参与方,参与方自己来处理和保护数据,再将扰动后的数据发送到第三方,由于发送的数据不是原始数据,因此也就不要求第三方是可信的。

差分隐私的实现机制
目前实现差分隐私保护的主流方法是添加扰动噪声数据。前面提到,差分隐私可以分为中心化差分隐私和本地化差分隐私,其中:中心化差分隐私采用的扰动机制可以包括拉普拉斯噪声机制、指数噪声机制等;而本地化差分隐私一般通过随机响应(Randomized Response)来实现(随机响应是1965年由Warner提出的一种隐私保护技术)。
差分隐私常用的三种机制

前面介绍的是在查询状态下对输出结果实现差分隐私保护的机制。在机器学习中应用差分隐私技术,其情况会更加复杂,因为我们要保护的信息,不仅包括输入数据和输出数据,还包括算法模型参数、算法的目标函数设计等。因此,在机器学习领域应用差分隐私算法,一个关键的问题是何时、何阶段添加噪声数据。
为此,差分隐私算法根据噪声数据扰动使用的方式和使用阶段的不同,将其划分为下面几类:
(1)输入扰动:噪声数据被加入训练数据。
(2)目标扰动:噪声数据被加入学习算法的目标函数。
(3)算法扰动:噪声数据被加入中间值,例如迭代算法中的梯度。
(4)输出扰动:噪声数据被加入训练后的输出参数。
在不同阶段,采用的扰动机制也有不同的考虑。


