NeurIPS 2023｜PRIOR：给模型注入个性先验知识，重新激活联邦学习中被忽视的信息



NeurIPS 2023｜PRIOR：给模型注入个性先验知识，重新激活联邦学习中被忽视的信息

极市平台

2023-10-29

导读：该方法在 5 个数据集上达到了最先进的性能，并且在 8 个基准测试中比其他方法高出 3.5%。

↑ 点击蓝字关注极市平台

作者丨石明佳

来源｜知乎

编辑丨极市平台

极市导读

本文提出了一种新颖的方案，将个性化先验知识注入到每个客户端收到的全局知识中，缓解联邦学习中本地训练先验信息不完整的问题。该方法在 5 个数据集上达到了最先进的性能，并且在 8 个基准测试中比其他方法平均高出至少1.29%，在其中较困难数据集上平均准确度至少高出3.02%。广泛的分析验证了所提出设计的必要性和鲁棒性。>>加入极市CV技术交流群，走在计算机视觉的最前沿

背景

经典的联邦学习（FL）可以在不收集数据的情况下训练机器学习模型，以在减小通讯需求的同时保护隐私。数据异构性是 FL 的基本特征，会导致多次本地训练带来的客户端漂移以及训练和本地实际测试数据分布不一致（数据漂移）等挑战。个性化联邦学习（Personalized FL）通过在本地数据上进行训练，在全局训练的过程中或完成后，产生个性化模型并以之测试，从而缓解或解决这一问题。

论文链接：https://arxiv.org/pdf/2310.09183.pdf

代码链接：https://github.com/BDeMo/pFedBreD_public

简述

传统（个性化）联邦学习中，每个全局训练周期开始时，每次本地训练的先验知识通过全局模型传输，以获取总体数据的最新信息。而通过同一个全局模型传输的先验信息并没有量身定制给每个客户端，造成了每次本地训练要重获这部分互信息，即，客户端采样发生后并没有对先验知识的传输产生影响。我们将其称为OIP（Overlooked Information Problem），并提出了正式的问题定义。我们考虑直接注入缺失的部分互信息到先验中，以一定程度上缓解OIP带来的影响，特别是在难学习到的表征和困难数据集上，使得保留全局知识的同时加速个性化训练。

OIP的正式定义：

其中为客户端采样，为全局模型，为本地模型，为全局模型与客户端采样之间的互信息（Mutual Information，MI）。

问题建模

我们首先需要对全局问题进行分析、解耦，并设计策略以注入本地信息，从而缓解先验信息传输中的OIP带来的负面影响。本工作中，我们通过如下主要假设，从全局问题中分离出先验信息部分、全局信息推断、本地信息推断，得到“全局极大似然估计 & 本地极大后验估计”（Global MLE & Local MAP）的新PFL模型，全局问题和本地问题求解过程中，通过知识传递参数和模型聚合，进行本地模型和全局模型之间的相互知识传递。

主要假设

先验信息假设：

本地完全信息的后验分布服从某个指数族分布。其中本地数据采样自本地数据集，；为全局模型，，为决定指数族形态的超参数，为本地问题求解前，根据全局先验知识得到的自然参数。

【为什么在这里的先验信息假设是后验分布？】

上式可以重新整理为，混合似然（推断模型本地学到的似然+显式假设的似然），本地参数先验【直觉上地，分别对应：（本地知识推断+全局知识推断）、先验知识】。假设后验分布概率有两个好处：相比于直接假设先验分布概率，多出了一部分，显式假设的似然，也即全局知识推断的部分；结合指数族分布，我们能得到一个有非常好计算性质，同时涵盖面非常广的一般正则项，布雷格曼散度（Bregman Divergence，B-Div）正则项。

完全信息参数假设：

本地参数包含本地推断需要的所有信息，即，本地只用个性化模型做推断，而不是全局模型。

新PFL模型Global MLE & Local MAP——（pFedBreD， Personalized Federated Learning with Bregman Divergence）

全局问题：

。

本地问题：

其中，为本地期望参数，用于个性化确定先验假设；为B-Div，其中，为参数，为Fenchel Conjugate。

全局模型：

全局问题的解

个性化模型：

本地问题的解

本地模型： 全局模型的分量，。【注意不一般成立，因而一般将产生bias。】

一次迭代过程简述为：

全局模型发送给本地训练提供全局知识；
根据提供的全局知识构造个性化先验；
通过任意最优化方法求解本地问题；
从本地训练后得到的个性化模型中提取本地信息，并聚合本地模型得到新的全局模型。

全局问题求解算法为一阶算法，其中

本地问题求解可以使用任意求解方法，且不限制策略【如果需要收敛性分析做backup的话，请参造原文Appendix中的假设设计或者提出假设】。具体算法如下：

个性化先验策略设计——松弛化镜像梯度下降（RMD，Relaxed Mirror Descent)

我们通过对如下镜像梯度下降的一般迭代形式进行松弛化：

得到：

其中为引入松弛参数与额外变量。

整理后得到解耦出的先验假设参数，

- 外层问题：

- 内层问题（个性化先验策略）：

巧妙的是，这一个策略的一阶最优性条件得到的恰巧就是基于MAML的Meta-Step目标设计，即！

基于MAML的目标函数设计，我们分别得到如下策略：

其三者分别表示基于本地似然损失的、基于本地问题的、基于混合信息的一阶MAML策略。

收敛性分析

我们在Global MLE & Local MAP框架下，对大部分基于正则（例如，L2，KL）的本地训练方法提供了一个线性的以及无聚合噪声下的情况下的二次加速的收敛上界。除开常规的最终收敛半径和指数项，以下将分全局聚合噪声有无的两种情况讨论：

有全局聚合噪声时，不为0，一般在训练前中期相对重要，主要受本地问题之间的极值点差异影响，差异越大收敛越慢，同时强凸性更强的包络收敛越快；
没有全局聚合噪声，，二次项起主要作用，更大的聚合动量可以获得更快的全局收敛速度，但是过大的聚合动量会造成全局参数聚合的不稳定，注意到实际全局步长的选择与相关，过大会导致跑出backup范围；

实验

对比实验

上图为8个setting，5个数据集上的结果

主要对比了：凸/非凸任务上、简单/复杂数据集上、CV/文本数据集上，本方法与其他方法的表现，Baselines主要包含：经典方法FedAvg、EM-based方法FedEM、贝叶斯个性化方法pFedBayes、多任务算法FedAMP（Heur-FedAMP）、正则化方法pFedMe、元学习方法Per-FedAvg。

消融实验

上图为对比试验数据集上的消融实验

主要摘掉了个性化先验策略的混合方法的本地似然梯度、本地包络梯度以及两者同时摘除，即退化成pFedMe【高斯先验假设的一种pFedBreD，用L2正则作为正则项。其他的方法也是pFedBreD框架下支持的方法，比如：KL正则，一些变分推断的方法】。消融实验体现了个性化先验方向的潜力，以及方法的各种信息补偿方式的有效性。