

AAAI2026 | FedVLR：让联邦推荐的“图文融合”真正实现因人而异

机器学习与推荐算法

2025-11-20

导读：针对联邦推荐系统如何实现高效融合多模态信息并实现个性化的难题，首创性地设计了“服务器多视图预融合 + 客户端个性化精炼”双层机制，巧妙地将密集的融合计算置于服务器，而将轻量级的个性化决策留在端侧，兼顾

嘿，记得给“机器学习与推荐算法”添加星标

TLDR: 视觉与文本特征已是现代推荐系统的标配，但在联邦学习 (FL) 场景下，如何在保护用户隐私（数据不出端）的前提下，高效融合多模态信息并实现个性化，始终是一大挑战。针对该问题，悉尼科技大学与香港理工大学联合提出 FedVLR 框架。它首创性地设计了“服务器多视图预融合 + 客户端个性化精炼”双层机制，巧妙地将密集的融合计算置于服务器，而将轻量级的个性化决策留在端侧。FedVLR 兼顾了隐私、效率与推荐效果，为联邦推荐系统利用多模态内容提供了理论与工程上均可行的解决方案。本文已被 AAAI 2026 会议录用，并获选进行口头报告 (Oral Presentation)。

论文：https://arxiv.org/abs/2410.08478
代码：https://github.com/mtics/FedVLR

动机与问题界定

现有的联邦推荐存在两大局限：

仅依赖 ID：无法利用丰富的图文内容信息。
统一融合：即便使用了多模态特征，也采用一套固定的规则融合它们，完全忽略了用户的偏好异质性。实际上不同用户对“看图”、“读文”或“依赖协同信号”的侧重是不同的。

FedVLR 将问题明确为“联邦推荐×视觉×语言场景下的个性化多模态融合”，强调融合逻辑本身需要因用户而变，并在标准的联邦推荐设置下推进该目标：物品内容特征保存在服务器侧，用户交互历史留在本地设备。

设计出发点

联邦学习要求数据留在设备上，但用户对图像、文本与协同信号的侧重并不相同。传统做法用一套统一的融合规则，难以覆盖这些差异。 FedVLR 将个性化放在融合环节本身，让不同用户以不同方式整合多模态信息。

FedVLR 的设计初衷不是要替代现有的联邦推荐框架（如 FedAvg-MF, FedNCF 等），而是作为一层内容感知的个性化融合层对其进行增强。

由于个性化参数留在本地且通信协议不变，工程集成成本较低，并可与现有隐私增强方案共同使用。

整体框架

系统分为服务器准备、端侧决策与联邦协同三部分：

服务器负责生成多种预融合视图并分发；
客户端依据本地历史作个性化精炼；
各端上传必要更新，服务器聚合后进入下一轮。

双层融合机制概要

服务器侧多视图融合：使用预训练视觉—语言模型提取图像与文本语义表示，并与全局可学习的 ID 表示共同作为输入；服务器通过若干可学习的融合算子生成风格各异的“预融合视图”，把算力密集的步骤放在云端完成后再下发。

客户端个性化精炼：每个客户端根据本地交互历史，使用轻量级的 Mixture-of-Experts 路由器对这些视图分配权重，形成该用户的最终物品表示；个性化参数与数据不出端，通信形态与常规联邦训练一致，并可与隐私增强技术配合使用。

实验设置

FedVLR作为“融合增强层”接入，不改变底层联邦优化流程，也不依赖特定算法。

矩阵分解、神经协同过滤或带个性化适配的联邦方法均可直接挂载，从而在不重构管线的情况下，把内容理解与端侧个性化结合起来。

评测覆盖电商、电影与短视频等多个公开数据集，统一使用隐式反馈排序协议，对比了中心化多模态模型与多种联邦推荐算法，以验证可插拔增强效果和跨算法的适配性。

结果与趋势

性能对比

在多类数据与多种联邦算法上，接入 FedVLR 后的整体排序指标呈持续向好的趋势，增益具有稳定的一致性。

在数据稀疏或规模较小的条件下，端侧个性化融合带来的改进更明显，与中心化训练的差距缩小，局部条件下出现反超现象。

隐私、通信与开销

FedVLR 明确要求原始数据不出端、个性化参数不上传。因此，通信形态与常见联邦推荐一致，可直接复用现有采样与容错策略。

服务器的新增成本主要是每轮生成多视图。

端侧只增轻量路由与小型预测头，整体资源占用可控。

当需要更强保护时，FedVLR 可叠加差分隐私或噪声注入，无需改动框架。

在引入隐私噪声等保护后，性能下降保持平稳可控，仍优于未接入个性化融合的基线。

适用场景

FedVLR 适用于图文并存的内容推荐，如电商、电影与短视频等，尤其是当有隐私合规要求，需要强调端侧个性化、且已具备联邦训练基础设施的业务环境。

FedVLR 也适合将“只看 ID” 的联邦系统升级为“内容 + 个性化融合”的方案。

论文报告显示，在低数据条件下，该框架能够取得优于部分中心化对照的结果，说明个性化融合对于端侧内容建模具有现实价值。

结语

FedVLR 创造性地将“个性化”的粒度从“模型”下沉到“融合”这一关键环节，在联邦学习框架内实现了真正面向个人的视觉-语言信息整合。

方法本身可作为增强层接入，通信与训练流程与现有联邦系统一致，端侧仅增加轻量模块，工程改造成本低、上线路径清晰。

实验在多类数据与多种联邦骨干模型上呈现出稳定向好的趋势，尤其在数据稀疏场景下提升更明显，同时在引入隐私保护时保持可控的性能回落。

论文与代码已开放，包含实现细节与复现实验，便于直接对接现有系统或开展进一步对比。欢迎学术与产业伙伴基于同一协议验证效果，并在真实业务中评估其在隐私约束下的个性化收益。

欢迎干货投稿 \ 论文宣传 \ 合作交流

由于公众号试行乱序推送，您可能不再准时收到机器学习与推荐算法的推送。为了第一时间收到本号的干货内容，请将本号设为星标，以及常点文末右下角的“在看”。

喜欢的话点个在看吧👇

【声明】内容源于网络

机器学习与推荐算法

专注于分享经典的推荐技术，致力于传播基础的机器学习、深度学习、数据挖掘等方面的知识。

内容 626

粉丝 0

机器学习与推荐算法专注于分享经典的推荐技术，致力于传播基础的机器学习、深度学习、数据挖掘等方面的知识。

总阅读202

粉丝0

内容626