
联邦学习是利用分散在各参与方的数据集,通过隐私保护技术融合多方数据信息,协同构建全局模型的一种分布式训练方式。
在模型训练过程中,模型的相关信息(如模型参数、模型结构、参数梯度等)能够在各参与方之间交换(交换方式可以是明文、数据加密、添加噪声等),但本地训练数据不会离开本地。这一交换不会暴露本地的用户数据,降低了数据泄露的风险。训练好的联邦学习模型可以在各数据参与方之间共享和部署使用。
特征包括:
• 有两个(或以上)的联邦学习参与方协作构建一个共享的机器学习模型。每一个参与方都拥有若干各自希望能够用来训练模型的训练数据。
• 在联邦学习模型训练过程中,每一个参与方拥有的数据都不会离开该参与方,即数据不离开数据拥有者。
• 与模型相关的信息(如模型参数、模型结构、参数梯度等)能够以加密方式在各方之间传输和交换,并且需要任何一个参与方在接收到这些信息时都不能推测出其本地的原始数据。
• 联邦学习模型的性能要能够充分逼近理想模型(理想模型是指通过将所有训练数据集中在一起并训练获得的机器学习模型)的性能。
• 联邦学习模型的构建不影响客户端设备的正常使用,即客户端在本地训练的过程中,应能够保证该设备其他进程的正常运行(如控制CPU占用率、内存使用率等)。
联邦学习的设计模式带来了许多益处。它不需要各参与方直接进行数据交换,将模型的训练计算交给了边缘端设备,从而最大化地保障了用户的隐私和数据安全。此外,联邦学习不是单点的训练,而是联合各参与方来协同地训练一个机器学习模型。因此,在通常情况下,全局模型的效果比基于本地数据训练的本地模型效果更好。
例如,联邦学习能够用于商业银行检测多方借贷活动,而这在银行产业,尤其是在互联网金融业中,一直是一个很难解决的问题。
通过联邦学习,我们不再需要建立一个中央数据库,并且任何参与联邦学习的金融机构都可以向联邦系统内的其他机构发起新的用户查询请求。
其他机构仅仅需要回答关于本地借贷的问题,并不需要了解用户的具体信息。这不仅保护了用户隐私和数据完整,还实现了识别多方贷款的重要业务目标。


