大数跨境

联邦计算技术——差分隐私概述(转载)

联邦计算技术——差分隐私概述(转载) 数组智控产业发展科技院
2022-03-15
2
导读:联邦学习使用多种隐私保护技术共同抵抗不可信参与方或者敌手的分析,从而保护用户隐私。在联邦学习的实现过程中,既


联邦学习使用多种隐私保护技术共同抵抗不可信参与方或者敌手的分析,从而保护用户隐私。


在联邦学习的实现过程中,既可以根据技术的特性,仅使用一种技术对某个阶段进行隐私保护,也可以通过多种技术的组合,共同对某个阶段进行隐私保护。


为了帮助联邦学习中的客户端抵抗来自服务器以及外部恶意敌手的各种攻击,差分隐私也会与密码学技术相结合,完成用户隐私数据的隐藏。


差分隐私的基本概念


差分隐私的提出是为了有效地应对差分攻击,我们使用一个虚拟案例介绍一下差分攻击和差分隐私的概念。


假设A公司想给X大学的2000名学生进行消费水平评级,从而决定在该大学投放广告的力度。


由于缺乏相关数据,A公司希望与电商公司B合作,查询这2000名学生在B公司2019年的月平均消费金额超过500元的人数,以此作为进一步决策的指标之一。


假设A公司向电商公司B进行了两次查询,第一次查询使用的数据为2000名学生的整体数据(记作D1),而第二次查询则将最后一位同学Bob删去,使用前1999名同学的数据(记作D2)。


此时得到的两个数据集便可称为该场景中的相邻数据集。


如果电商公司B直接返回查询结果,query(D1)=900,query(D2)=899,那么根据这两次查询结果,A公司便可得到额外的信息,即Bob在2019年,在电商公司B的月平均消费金额超过了500元。


A公司使用两个仅差一条记录的数据集分别进行查询的行为,便可视为一种差分攻击,旨在分析Bob同学的消费情况。


为了抵抗这种差分攻击,电商公司B可以使用差分隐私的方法对查询结果进行处理,即加入一个随机项r,(r取自离散均匀分布[-1,0,1]):


querydp(D)=query(D)+r,dp表示差分隐私(Differential Privacy),于是A公司得到的查询结果可能如式(2-3)和式(2-4)所示,即



加入随机项之后的查询结果便达到了掩盖真实结果的目的,但由于所使用的随机项分布过于简单,仍然可能出现极端情况导致真实结果的泄露。


所以,可以根据具体的场景,通过修改随机项的分布,对保护隐私的程度进行修改。


当然,这里展示的虚拟案例只展示了差分攻击的手段和差分隐私的思想,但所使用的随机项分布和方法都不能满足复杂的真实场景的要求。


差分隐私通过增加噪声来掩盖真实数据,防止有一定背景知识的敌手分析出额外的信息。


值得一提的是,差分隐私关注的不只是隐私,数据的可用性也是非常重要的一个指标。


如果为了防止敌手进行分析,导致数据的可用性丧失,就失去了传输数据的意义,隐私保护的前提条件也就不复存在。


因此,只有添加合适的干扰噪声,才能在保证数据可用性的同时,还能为数据的安全性提供一定的保护,防止数据被敌手进一步分析。


为了更清晰地确定添加噪声的大小,可以使用敏感度(Sensitivity)的概念对噪声进行衡量。


与差分隐私相似,敏感度的概念也是建立在某个算法(或函数)上的。


我们所说的“是否满足差分隐私”的对象便是一个算法。


同样,敏感度的概念也如此,是指某算法在相邻数据集上的输出结果的最大差异。


在差分隐私中定义了两种敏感度,即全局敏感度和局部敏感度。


其中,局部敏感度是在固定了相邻数据集中某个数据集(D或者D')的情况下,计算某算法输出结果的最大差异,而全局敏感度则是对所有相邻数据集的组合进行计算。


差分隐私的主要思想就是保证最终输出的结果是经过噪声扰动的。


因此,在差分隐私中扰动可以添加在任一阶段。


根据扰动添加的位置,可以将扰动分为以下几类:输入扰动、目标扰动、优化扰动和输出扰动


差分隐私在联邦学习中的应用


在联邦学习的实现过程中,要尽可能全面地考虑威胁模型和隐私攻击方式,使用相应的技术,达到隐私泄露的最小值。


如上文所述,按照攻击者的目标,联邦学习的威胁模型可以分为模型窃取攻击和模型推理攻击。


在联邦学习中,模型一般在参与协同训练的参与方中进行部署,不会向未参与训练的机构或者非客户端的实体开放模型使用接口,这就大大地提高了模型窃取攻击的难度。


因此,联邦学习主要考虑模型推理攻击造成的隐私泄露。


模型推理攻击包括两种:


旨在恢复数据集某些属性的属性推理攻击(又称为重构攻击),以及旨在判断某条数据(或某个用户)是否包含在训练数据集中的成员推理攻击(又称为追溯攻击)。


在横向联邦学习场景中,多个客户端在本地进行模型的训练,并将训练结果当作全局模型的中间结果上传到服务器。


服务器再对各个客户端的结果进行聚合,作为全局训练结果发送至各个客户端。


客户端和服务器多次交互,直至全局训练结果达到预期阈值,便可将模型在所有客户端进行部署。


这是横向联邦学习的简单框架。


在横向联邦学习中,模型推理攻击的威胁模型可以按照场景中的角色分为两种,即恶意的(不可信的)服务器和可信的服务器。


  1. 恶意的服务器


如果横向联邦学习的中心服务器不是完全可信的,那么客户端在上传数据之前,便会使用差分隐私机制对原始数据或者上传数据添加扰动,这便使得服务器无法从客户端的模型更新结果中推理出客户端的额外信息,这防止了模型推理攻击的发生。


比如,在Shokri等人的工作中,由于服务器对全局模型参数的每轮更新迭代都需要每个客户端上传梯度,用于聚合得到新的全局模型参数,而这些客户端的梯度计算是在自己的私有数据上完成的,如果将梯度直接上传给服务器,那么可能会产生隐私泄露的问题。


因此,Shokri等人提出了使用两个技巧保护用户隐私的方法。


第一个技巧是上传部分梯度,而非全部梯度,因此,每个客户端可以自行判断某些梯度是否敏感以及自行决定是否将这些梯度上传;


第二个技巧便是使用差分隐私,将服从拉普拉斯分布的噪声加入梯度之后,再上传至服务器,从而避免泄露任意一条数据的隐私。


2.可信的服务器


如果假设服务器是可信的,而在参与训练的客户端中存在恶意敌手,那么在服务器收到客户端的模型更新结果并进行聚合之后,便会使用中心差分隐私机制向聚合结果增加噪声,再发送回各个客户端。


每个客户端收到的都是增加了扰动之后的结果,这便大大地增加了进行模型推理攻击的难度。


理论上,可以使用样本级的差分隐私防止成员推理攻击,也可以使用参与方级的差分隐私防止属性推理攻击。


尽管差分隐私有着强大的隐私保护功能,但是也存在各种亟待解决的问题,比如使用本地差分隐私时数据的可用性问题、分布式差分隐私对服务器的可信度要求等问题。


差分隐私在防止成员推理攻击的实现过程中,出现了模型无法收敛的情况,其原因便是参与方数量较少导致添加噪声后的数据可用性无法保证。


本文介绍差分隐私在联邦学习中应用的简单思想,在实际应用中则需要考虑如何解决上述问题。


根据业务场景的具体需求,隐私保护的手段更加复杂,比如通常会使用安全多方计算与本地差分隐私进行结合,扩大本地差分隐私的隐私保护水平,共同保证用户隐私。


另外,值得一提的是差分隐私主要应用在横向联邦学习中,以抵抗多个客户端和服务器之间的推理攻击;在纵向联邦学习中,则更多地使用密码学的方法保护数据隐私。


【声明】内容源于网络
0
0
数组智控产业发展科技院
以AI技术为底层能力,聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域,提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。
内容 986
粉丝 0
数组智控产业发展科技院 以AI技术为底层能力,聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域,提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。
总阅读1.6k
粉丝0
内容986