大数跨境
0
0

NeurIPS 2023|PRIOR:给模型注入个性先验知识,重新激活联邦学习中被忽视的信息

NeurIPS 2023|PRIOR:给模型注入个性先验知识,重新激活联邦学习中被忽视的信息 极市平台
2023-10-29
0
导读:该方法在 5 个数据集上达到了最先进的性能,并且在 8 个基准测试中比其他方法高出 3.5%。
↑ 点击蓝字 关注极市平台
作者丨石明佳
来源|知乎
编辑丨极市平台

极市导读

 

本文提出了一种新颖的方案,将个性化先验知识注入到每个客户端收到的全局知识中,缓解联邦学习中本地训练先验信息不完整的问题。该方法在 5 个数据集上达到了最先进的性能,并且在 8 个基准测试中比其他方法平均高出至少1.29%,在其中较困难数据集上平均准确度至少高出3.02%。广泛的分析验证了所提出设计的必要性和鲁棒性。>>加入极市CV技术交流群,走在计算机视觉的最前沿

背景

经典的联邦学习(FL)可以在不收集数据的情况下训练机器学习模型,以在减小通讯需求的同时保护隐私。数据异构性是 FL 的基本特征,会导致多次本地训练带来的客户端漂移以及训练和本地实际测试数据分布不一致(数据漂移)等挑战。个性化联邦学习(Personalized FL)通过在本地数据上进行训练,在全局训练的过程中或完成后,产生个性化模型并以之测试,从而缓解或解决这一问题。

论文链接:https://arxiv.org/pdf/2310.09183.pdf

代码链接:https://github.com/BDeMo/pFedBreD_public

简述

传统(个性化)联邦学习中,每个全局训练周期开始时,每次本地训练的先验知识通过全局模型传输,以获取总体数据的最新信息。而通过同一个全局模型传输的先验信息并没有量身定制给每个客户端,造成了每次本地训练要重获这部分互信息,即,客户端采样发生后并没有对先验知识的传输产生影响。我们将其称为OIP(Overlooked Information Problem),并提出了正式的问题定义。我们考虑直接注入缺失的部分互信息到先验中,以一定程度上缓解OIP带来的影响,特别是在难学习到的表征和困难数据集上,使得保留全局知识的同时加速个性化训练。

OIP的正式定义:

其中 为客户端采样, 为全局模型, 为本地模型, 为全局模型与客户端采样之间的互信息(Mutual Information,MI)。

问题建模

我们首先需要对全局问题进行分析、解耦,并设计策略以注入本地信息,从而缓解先验信息传输中的OIP带来的负面影响。本工作中,我们通过如下主要假设,从全局问题中分离出先验信息部分、全局信息推断、本地信息推断,得到“全局极大似然估计 & 本地极大后验估计”(Global MLE & Local MAP)的新PFL模型,全局问题和本地问题求解过程中,通过知识传递参数和模型聚合,进行本地模型和全局模型之间的相互知识传递。

主要假设

先验信息假设:

本地完全信息的后验分布服从某个指数族分布。其中本地数据采样自本地数据集, 为全局模型, 为决定指数族形态的超参数, 为本地问题求解前,根据全局先验知识得到的自然参数。

【为什么在这里的先验信息假设是后验分布?】

上式可以重新整理为,混合似然(推断模型本地学到的似然+显式假设的似然),本地参数先验【直觉上地,分别对应:(本地知识推断+全局知识推断)、先验知识】。假设后验分布概率有两个好处:相比于直接假设先验分布概率,多出了一部分,显式假设的似然,也即全局知识推断的部分;结合指数族分布,我们能得到一个有非常好计算性质,同时涵盖面非常广的一般正则项,布雷格曼散度(Bregman Divergence,B-Div)正则项。

完全信息参数假设:

本地参数包含本地推断需要的所有信息,即,本地只用个性化模型做推断,而不是全局模型。

新PFL模型Global MLE & Local MAP——(pFedBreD, Personalized Federated Learning with Bregman Divergence)

全局问题:

本地问题:

其中, 为本地期望参数,用于个性化确定先验假设; 为B-Div,其中, 为参数, 为Fenchel Conjugate。

全局模型:

  • 全局问题的解

个性化模型:

  • 本地问题的解

本地模型: 全局模型的分量, 。【注意 不一般成立,因而 一般将产生bias。】

一次迭代过程简述为:

  1. 全局模型发送给本地训练提供全局知识;
  2. 根据提供的全局知识构造个性化先验
  3. 通过任意最优化方法求解本地问题;
  4. 从本地训练后得到的个性化模型中提取本地信息,并聚合本地模型得到新的全局模型。

全局问题求解算法为一阶算法,其中

本地问题求解可以使用任意求解方法,且不限制 策略【如果需要收敛性分析做backup的话,请参造原文Appendix中的假设设计或者提出假设】。具体算法如下:

个性化先验策略设计——松弛化镜像梯度下降(RMD,Relaxed Mirror Descent)

我们通过对如下镜像梯度下降的一般迭代形式进行松弛化:

得到:

其中 为引入松弛参数与额外变量。

整理后得到解耦出的先验假设参数

- 外层问题:

- 内层问题(个性化先验策略):

巧妙的是,这一个策略的一阶最优性条件得到的恰巧就是基于MAML的Meta-Step目标设计,即

基于MAML的目标函数设计,我们分别得到如下策略:

其三者分别表示基于本地似然损失的、基于本地问题的、基于混合信息的一阶MAML策略。

收敛性分析

我们在Global MLE & Local MAP框架下,对大部分基于正则(例如,L2,KL)的本地训练方法提供了一个线性的以及无聚合噪声下的情况下的二次加速的收敛上界。除开常规的最终收敛半径和指数项,以下将分全局聚合噪声有无的两种情况讨论:

  • 有全局聚合噪声时,不为0,一般在训练前中期相对重要,主要受本地问题之间的极值点差异 影响,差异越大收敛越慢,同时强凸性 更强的包络收敛越快;
  • 没有全局聚合噪声, ,二次项起主要作用,更大的聚合动量 可以获得更快的全局收敛速度,但是过大的聚合动量会造成全局参数聚合的不稳定,注意到实际全局步长 的选择与 相关,过大会导致 跑出backup范围;

实验

对比实验

上图为8个setting,5个数据集上的结果

主要对比了:凸/非凸任务上、简单/复杂数据集上、CV/文本数据集上,本方法与其他方法的表现,Baselines主要包含:经典方法FedAvg、EM-based方法FedEM、贝叶斯个性化方法pFedBayes、多任务算法FedAMP(Heur-FedAMP)、正则化方法pFedMe、元学习方法Per-FedAvg。

消融实验

上图为对比试验数据集上的消融实验

主要摘掉了个性化先验策略的混合方法的本地似然梯度、本地包络梯度以及两者同时摘除,即退化成pFedMe【高斯先验假设的一种pFedBreD,用L2正则作为正则项。其他的方法也是pFedBreD框架下支持的方法,比如:KL正则,一些变分推断的方法】。消融实验体现了个性化先验方向的潜力,以及方法的各种信息补偿方式的有效性。

信息注入与提取验证

上图为广义相干性估计,经典非个性化方法,非个性化先验/个性化先验的个性化方法

本文通过对训练后的本地问题的一阶信息差异进行广义相干性估计(GCE),对信息的注入和提取验证,如果差异越大,即GCE越小,说明信息多样性越强。

鲁棒性实验

上图为关于不同聚合噪声以及数据异构性的鲁棒性实验

分别测试了在两个数据集上,不同聚合比率的结果稳定性,对比标准差非常小,表示非常稳定。分别测试了三个方法的全局模型、个性化模型在不同非独立同分布设置下的结果稳定性。

个性化实验

上图为损失离差对比

本问中个性化效果验证,除了之前实验的部分体现以外,我们使用不同类上的损失离差对比来验证个性化效果。G代表全局测试,即输出模型在所有数据上的测试;L代表本地测试,即输出模型在本地数据上的测试。更低的全局测试离差、更高的本地测试离差,体现了更好的个性化效果。

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列ICCV2023论文解读极市直播
极视角动态欢迎高校师生申报极视角2023年教育部产学合作协同育人项目新视野+智慧脑,「无人机+AI」成为道路智能巡检好帮手!
技术综述:四万字详解Neural ODE:用神经网络去刻画非离散的状态变化transformer的细节到底是怎么样的?Transformer 连环18问!

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读197
粉丝0
内容8.2k