大数跨境

联邦学习的生命周期和安全可靠性(转载)

联邦学习的生命周期和安全可靠性(转载) 数组智控产业发展科技院
2022-03-10
1
导读:在实际应用中,模型的开发与完善往往对实验结果起着至关重要的作用,因此对联邦模型生命周期的了解是很有必要的。一


在实际应用中,模型的开发与完善往往对实验结果起着至关重要的作用,因此对联邦模型生命周期的了解是很有必要的。


一般的联邦模型生命周期如下:



需求确定、数据集部署、模型初始化、模型训练、模型评估、模型上线和在线推理。


一、模型训练


联邦学习的训练过程是指由各方数据建立模型的过程。


从训练过程的整体来看,如果把联邦学习的训练过程分为“分治”和“联合”两个部分,那么理解起来会简单、清晰。


1.“分治”部分


“分治”源于“分治算法”的思想。


基于各个参与方在保护数据安全前提下的合作建模需求,各方工程师需要识别具体问题。


因为我们需要基于各个参与方不同的数据进行模型训练,所以各个参与方需要先在各自本地终端部署数据和进行模型初始化,通过在本地执行训练程序进行本地模型的更新,最后所训练的模型也拥有不同的模型参数。


2.“联合”部分


虽然不同的框架的实现方式不同(如横向联邦学习、纵向联邦学习),但主要是全局模型、本地模型的训练和模型更新。


全局模型通过聚合各个参与方本地计算的信息进行训练来完成模型更新,然后再把各个参与方所需的信息传递到本地,开始下一轮的迭代训练。


在这个过程中,我们需要注意的是敏感数据的安全传输,比如对模型的梯度损失值常常采用同态加密,以在满足计算要求的前提下保护各方隐私。


二、在线推理


在线推理又被称为在线服务,联邦学习的推理过程是指从上线模型到预测结果的过程。


当模型评估和模型上线完成之后,我们将进入在线推理阶段。


在联邦学习中,在线推理通常由一端发起推理任务,其他参与方协作开展联合预测并最终得到推理结果。


三、联邦学习的安全性与可靠性


传统机器学习模型的典型工作流程,如图:



而联邦学习则需要在保护各方隐私的条件下获得模型。


因此,在上述典型流程的基础上,还需要结合特定的数据隐私保护技术。


例如,同态加密保证了在传输过程中各方在不泄露原始数据的同时又能得到真实的数据运算结果,而对梯度的额外掩码处理保证了真实梯度信息不会向对方泄露。


总之,联邦学习实现数据隐私保护主要通过安全多方计算(SecureMulti-Party Computation,SMC)、差分隐私(Differential Privacy,DP)和同态加密(Homomorphic Encryption)这三种方法。


1.安全多方计算


安全多方计算问题首先由图灵奖获得者、中国科学院院士姚期智教授于1982年提出,也就是著名的百万富翁问题:


两个争强好胜的富翁Alice和Bob在街头相遇,如何在不暴露各自财富的前提下比较出谁更富有?


安全多方计算是密码学的重要分支之一,目前主要用于解决各个互不信任的参与方之间的数据隐私和安全保护的协同计算问题,以实现在不泄露原始数据的条件下为数据需求方提供安全的多方计算。


假设小明认为自己得了某种传染病A,但是还不确定。


这时,他正好听说朋友小张有一个关于传染病A的相关血液数据库。


如果小明把自己的血液测试数据发给小张,小张就可以通过这些数据判断小明是否得了传染病A。


但是小明又不想让别人知道他得了传染病,所以直接把数据发给小张是不可行的,因为这样自己的隐私就被小张知道了。


那么,小明和小张如何在保证数据隐私的前提下实现这种计算呢?


这就是安全多方计算。一般来说,安全多方计算有两个特点:


一是两个(或多个)参与方进行基于他们各自私密输入信息的计算;


二是他们都不希望除了自己以外的参与方知道自己的输入信息。


假设存在可信任的中间方(或者服务提供商)能够保证隐私数据不泄露,然后各方把数据交给中间方(或者服务提供商)进行安全计算,但是这同时也是高风险的。


对于上述案例来说,假设小王是值得信任的中间方,小明不信任小张,所以把自己的数据发给小王。


小张也把自己的数据发给小王,小王通过计算验证,再把结果反馈给小张,这就完成了一次计算。


但是小王到底能不能保证数据隐私安全实在是值得商榷的,所以有学者指出:“将针对特殊例子的安全多方计算拓展到通用的安全多方计算的方法是不切实际的。”


我们可以利用联邦学习的技术优势,在不泄露原始数据的情况下,进行联合安全计算,训练模型,这样既能保护数据隐私和数据安全,又能为用户提供个性化的服务。



通过上述例子,我们可以把安全多方计算抽象理解:


两个(或多个)数据参与方分别拥有各自的隐私数据,在不泄露个人隐私数据的前提下,通过一定的计算逻辑(公共函数)计算出最终想要的结果,并且参与方只能得到计算结果,计算过程的中间数据和各方原始隐私数据均不共享。


2.差分隐私


为了避免个人数据被恶意使用或企业的敏感信息被泄露,数据发布者往往会采用一些数据隐私保护技术,例如对数据进行随机扰动或进行匿名化处理等,但是即使数据是匿名化的,也不能完全保证私有隐私数据的安全。


例如,当攻击者得到了部分泄露的信息时,攻击者可以通过合并重叠数据获取到其他的信息,或者通过对多次查询结果的比较获得有效信息。


针对上述信息泄露风险,Dwork等人提出差分隐私。


一般来说,满足差分隐私条件的数据集可以抵挡住对隐私数据的任何一种分析,因为差分隐私具有信息论意义上的安全性。


差分隐私能够保证攻击者获取的部分数据几乎和他们从没有这部分记录的数据集中能获取的相差无几,因此这部分数据内容对于推测出其他的数据内容几乎没有用处。


差分隐私技术的最大优点在于即使对于大规模的数据集,也只需添加少量噪声即可实现高度的隐私保护。


在实践方面,苹果公司在2016年6月宣布,将通过差分隐私收集iPhone中的行为统计数据,这标志着差分隐私算法正式在实际生活中应用,我们可以通过差分隐私在获取数据价值的同时保护个人的信息隐私。


同时,很多学者和工程师也开始关注差分隐私的发展和应用。


尽管苹果公司没有公开具体的技术实现细节,但是我们可以推测苹果公司使用的差分隐私算法可能和谷歌的RAPPOR项目使用的算法很相似,谷歌在Chrome中使用差分隐私随机响应算法收集行为统计数据。


除此之外,苹果公司还通过使用本地化差分隐私技术来实现iOS/macOS的用户个人隐私保护,并且计划将差分隐私算法应用于Emoji、查找提示和QuickType输入建议中。


3.同态加密


差分隐私通过添加噪声或使用泛化方法实现数据隐私保护。


不同于差分隐私,同态加密将私人隐私数据直接加密,在密文上进行计算,所得结果经解密后,与原始数据的输出结果一致。


这样就可以实现各个参与方在无须共享本地数据的前提下进行合作。


同态加密包含半同态加密全同态加密两种形式。


与半同态加密相比,全同态加密的复杂度较高,发展相对缓慢。


2009年,世界上第一个完备的全同态加密体制由美国科学家Gentry提出。


如前文所说,联邦学习的本质是一种隐私保护下的多方运算,因此在联邦学习中常采用同态加密进行隐私保护。


在联邦学习中引入同态加密的优势在于:同态加密保证了数据运算在加密层进行,而不直接利用原始数据进行计算。


因此,管理和存储加密数据的中间方(或者服务提供商)就可以直接对加密数据进行联合训练,而不会泄露各个参与方的隐私数据。


4.应对攻击的健壮性


目前,在应对攻击时,机器学习系统因健壮性不足容易出现各种各样的问题。


这些问题主要包括非恶意的攻击(比如,在数据预处理中的错误、训练标签混乱、进行模型训练的客户端不可靠等),以及在模型训练和部署过程中出现的显式攻击。


由于联邦学习的分布性和隐私保护技术的融合,联邦学习在应对一些传统攻击方式时可以更好地保护数据,表现出良好的可靠性。


首先来看攻击方式,在分布式数据中心和集中式设置中,主要可分为三种攻击方式,即模型更新中毒攻击数据中毒攻击逃避攻击


联邦学习和普通的分布式机器学习、集中式学习相比,主要差别在于各个数据参与方协同训练的方式不同,而使用已部署模型的推论在很大程度上基本保持不变。



在抵御模型更新中毒攻击方面,中央服务器可以通过对客户端模型更新进行约束:


约束任何本地客户端对整个模型的更新,然后汇总本地的模型更新集合并将高斯噪声添加到集合中。


这样可以有效地防止任何客户端更新对模型更新的过度干预,并且可以实现在具有差分隐私的情况下进行模型训练。


最近的研究工作已经探索了在联邦学习环境中的数据中毒攻击。


国外有人对联邦学习中的差分隐私进行了研究,并且提出了一种保护客户端差分隐私的联邦优化算法,在隐私损失和模型性能之间取得平衡。


实验结果表明,在有足够多的参与客户的情况下,这种方法可以以较小的模型性能代价实现客户级差分隐私。


【声明】内容源于网络
0
0
数组智控产业发展科技院
以AI技术为底层能力,聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域,提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。
内容 986
粉丝 0
数组智控产业发展科技院 以AI技术为底层能力,聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域,提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。
总阅读940
粉丝0
内容986