记得给 “机器学习与推荐算法” 添加星标
作者:香港城市大学 李晓鹏
今天解读 香港城市大学 × 华为诺亚方舟实验室等团队接收于 CIKM 2025 的 Scenario-Wise Rec: A Multi-Scenario Recommendation Benchmark。该工作围绕“多场景推荐(MSR)”提供了一个 统一、可复现、可迁移 的评测基准:覆盖6个公开数据集与1个工业广告数据集,复现12个代表性多场景模型,并给出从数据处理—训练—评测—日志/配置—使用教程 的端到端流程。
论文链接:https://arxiv.org/abs/2412.17374
代码链接:https://github.com/Applied-Machine-Learning-Lab/Scenario-Wise-Rec
1 研究背景与动机
多场景推荐(Multi-Scenario Recommendation, MSR)在现代互联网平台中具有重要的实际价值。在应用程序的开屏广告、信息流视频、不同频道等位置,平台需要同时服务多个推荐场景,每个场景对应不同的业务单元或用户情境。传统方法为每个场景独立训练模型,这种方式存在明显缺陷:数据稀疏场景难以获得充足训练样本,各场景间的共性知识无法有效迁移,模型维护成本随场景数量线性增长。当前多场景推荐研究面临两个核心挑战:第一,缺乏标准化的数据处理、模型训练和性能评估流程,导致不同研究间难以公平比较;第二,许多先进模型因企业隐私保护政策而闭源,研究者难以复现和改进这些方法。这些障碍严重阻碍了多场景推荐领域的发展进程。本研究针对这些痛点,提出了Scenario-Wise Rec基准,旨在为多场景推荐研究提供统一、可复现、可扩展的评测框架。
2 基准 Benchmark 概览
-
任务:多场景 CTR 预测(MS-CTR)。 -
数据:MovieLens、KuaiRand、Ali-CCP、Amazon、Douban、MIND 六个公开集 + 1 个工业广告集。 -
模型:SharedBottom、MMoE、PLE、STAR、SAR-Net、M2M、AdaSparse、ADL、EPNet、PPNet、HAMUR、M3oE。 -
指标:AUC、Logloss(统一接口与标准化输出)。 -
工程:统一训练脚本、日志/配置持久化、环境与教程。 -
和现有Benchmark对比:如下图所示,与现有的推荐领域基准相比,本基准专为多场景 CTR(MSR)任务设计,我们并且还提供工业级验证、完整教程和可定制设置(包括自定义多场景数据集与模型的构建),是 MSR领域的首个专用基准。
3 任务定义
在标准的点击率预测任务中,给定用户/物品/上下文特征 ,模型 根据用户、物品和上下文特征预测点击概率 。多场景推荐扩展了这一框架,引入场景指示 和场景特定特征 。具体而言,模型 需要同时处理场景无关的通用特征 和场景特定特征 ,在统一参数空间中学习跨场景的共享模式和场景专属模式:
这种形式化设计的优势在于:它为"一个模型服务多个场景"提供了清晰的数学框架,使得工业界可以用统一模型替代多个独立模型,显著降低系统复杂度和维护成本。
4 数据与场景划分
基准整合了六个公开数据集和一个工业数据集,覆盖不同规模、不同场景划分策略和不同应用领域。
4.1 场景划分的三种范式
场景划分策略通常分为三类:基于上下文特征、基于物品特征和基于用户特征。
-
基于上下文的场景划分最为常见。KuaiRand数据集通过"tab"标识符区分不同广告位置,选取交互量最高的5个场景进行训练和测试。Ali-CCP数据集使用特征"301"表示点击发生的位置,据此划分场景。这种方式直接对应工业实践中的物理位置或页面布局差异。 -
基于物品类型的场景划分适用于跨品类推荐场景。Amazon数据集将不同商品类别视为独立场景,选取"Clothing"、"Beauty"和"Health"三个类别。Douban数据集包含书籍、音乐和电影三个平台,所有子集共享相同用户,但物品空间完全不同。这种划分方式能够测试模型在物品分布显著差异时的知识迁移能力。
4.2 数据集的规模与特征
MIND数据集规模最大,包含748万用户、2万多个新闻物品和5600多万次交互,基于新闻类别划分为"news"、"lifestyle"、"sports"和"finance"四个场景。Ali-CCP作为大规模工业数据集,包含淘宝推荐系统的真实流量日志。数据集规模的多样性使得基准能够同时测试模型在小规模和大规模场景下的表现。
4.3 场景分布的不平衡性分析
研究使用变异系数(COV)评估场景分布的均衡程度。KuaiRand的COV值达到1.3552,显示出最不均衡的分布,这是因为用户集中在首页场景。MovieLens的COV值仅0.3186,显示出最均衡的分布,因为按年龄段均匀划分。Ali-CCP的COV约为0.9,同样呈现不平衡分布。 场景交叉分析揭示了用户和物品在不同场景间的重叠模式。在KuaiRand中,场景3和场景4共享832个用户中的704个,但物品交互模式存在显著差异。Douban的电影平台占据主导地位,但超过1000个用户跨越所有三个平台。这些分析对于理解多场景建模的挑战至关重要。
5 模型集合
基准实现了12个代表性的多场景推荐模型,涵盖了从经典多任务学习到最新自适应架构的演进路径。
5.1 共享底层架构
-
Shared Bottom模型通过共享网络学习潜在模式,然后为不同任务应用不同的网络塔进行任务特定建模。在多场景推荐中,将不同场景视为不同任务。这是最基础的多场景建模范式,但可能在场景差异较大时性能受限。
5.2 专家混合架构
-
MMoE模型使用多个专家网络作为基础结构,配合多个门控网络调节专家间的连接。通过显式建模任务间关系,MMoE能够提供增强的性能。 -
PLE模型显式分离共享组件和任务特定组件,采用渐进式路由机制逐层提取更深的语义知识。PLE在多个领域显著优于最先进的多任务学习模型。
5.3 场景自适应架构
-
STAR模型通过共享中心网络捕获跨场景的共享模式,同时为每个场景配置专属网络。在推理阶段,共享网络和场景特定网络的权重按场景组合。在阿里巴巴展示广告系统部署后,STAR在CTR和RPM指标上均观察到显著提升。 -
SAR-Net(场景感知排序网络)采用两个注意力模块学习跨场景用户兴趣,以及场景特定的转换层提取相关特征。此外,SAR-Net整合了去偏专家网络和公平系数来纠正人工干预。
5.4 元学习与自适应稀疏化
-
M2M模型利用骨干网络学习广告主和任务表示,并整合Meta单元学习场景特定知识。元学习机制通过元注意力和元残差层捕获场景间相关性。 -
AdaSparse专为多场景CTR预测设计,旨在自适应学习场景模型的稀疏结构。它引入轻量级剪枝器对每个场景塔的各层执行场景剪枝过程,结合二值化和缩放策略提升剪枝性能。在阿里巴巴广告系统的在线A/B测试中,AdaSparse显示出显著改进。
5.5 分布自适应与参数个性化
-
ADL采用端到端的层次结构,包含聚类过程和分类过程。核心的分布自适应模块使用路由机制,自适应确定每个样本的分布簇。 -
EPNet和PPNet是PEPNet的两个子模型。EPNet执行个性化嵌入选择,为跨场景用户融合具有不同重要性的特征。PPNet以个性化方式修改深度神经网络的参数,以平衡不同用户跨多个任务的不同稀疏性目标。
5.6 超网络与高级融合
-
HAMUR采用两种适配器:领域特定适配器和领域共享的超网络。领域特定适配器是模块化组件,可无缝集成到各种推荐模型中。共享超网络通过隐式捕获跨领域的共享模式,动态生成这些适配器的参数。 -
M3oE框架专门设计用于处理跨多个领域和任务的挑战。其核心采用三个不同的MoE模块,每个模块专注于管理领域特定偏好和任务特定行为,并整合两级融合机制有效结合跨领域和跨任务的特征。
6 评测指标
-
指标:AUC / Logloss(接口与输出统一)。 -
流程:统一训练流程、日志与配置持久化,便于复现与对比。 -
定制:提供从环境、数据、预处理到训练/评测的完整指引,支持自定义多场景数据与模型接入。
7 实验
7.1 公共数据结果
-
实验结果显示,包含专家结构的模型(如MMoE、PLE、SAR-Net、M3oE)通常优于直接建模不同场景的模型(如SharedBottom、ADL)。这表明专家结构模型在深层网络中更有效地捕获复杂的场景间动态。 -
能够根据不同场景动态调整关键结构或参数的模型(如M2M、AdaSparse、HAMUR)优于具有静态专家结构的模型,突显了它们对隐藏结构影响的精确控制能力,从而增强了对场景相关性的理解并提升整体模型性能。 -
值得注意的是,数据集规模似乎与模型间的性能差异没有直接相关性。这表明模型架构的适配能力比数据规模本身更为关键。 -
在用户-物品交互有限的稀疏条件下,性能变异性对整体模型有效性有显著影响。表现最佳的模型在所有条件下都能持续提供强劲结果,而效果较差的模型仅在特定情况下显示改进。 -
利用协同共享架构(STAR)或元学习(M2M)等技术的模型能够平衡跨领域的性能,在稀疏条件下提升性能的同时不牺牲数据丰富环境下的有效性。这突显了捕获场景相关性对于缓解稀疏性影响和促进跨多样化环境的统一性能提升的重要性。
7.2 效率分析
-
模型参数规模存在一定范围,反映了模型复杂性与效率之间的权衡。对于相对较小的数据集(如MovieLens和Douban),训练时间明显较低,反映出与大型数据集Ali-CCP相比计算负载的减少。 -
模型效率不仅受算法设计影响,还显著受数据集特征(包括特征数量和内在性质)的影响。这对于计算资源有限的应用至关重要。在不同模型之间,模型规模保持在相同数量级,主要是因为推荐系统中的大多数参数来自嵌入层。 -
具体而言,在Ali-CCP数据集上,每个epoch的训练时间约为2,500到3,200秒。M2M由于引入了元学习模块,训练时间最长(约3,042秒),但在复杂多场景设置下性能更稳定。AdaSparse和SAR-Net在保持竞争性能的同时实现了更快的训练速度。
7.3 场景数量敏感性
-
我们使用KuaiRand数据集,将场景数量从3增加到7,观察密集场景(Scenario-0)和稀疏场景(Scenario-2)的性能变化。结果显示,随着场景数量增加,两个场景的性能都有所提升。这种改进归因于实例数量增加,增强了数据集并促进了领域协作。 -
然而,在稀疏的Scenario-2中观察到"跷跷板效应",即性能先下降后提升。这种下降发生是因为稀疏场景的加入对整体性能产生负面影响,如SharedBottom、ADL和STAR等模型所示。 -
SAR-Net展示了在密集和稀疏场景之间平衡性能的强大能力,保持一致的结果。在实际部署中,平衡多个场景间的性能波动并根据具体条件调整模型至关重要。 -
这一发现对工业应用具有重要启示:盲目增加场景数量可能在短期内损害稀疏场景性能,需要通过模型架构选择或训练策略优化来缓解这一问题。
7.4 工业数据验证
工业数据集来自在线广告平台,包含10个不同场景和108个特征,跨越9天。前7天用于训练,后两天用于验证和测试。它包含通用和场景特定的用户和物品空间,总交互量约300万。该数据集的特征包括:用户特征(用户城市、点击历史等用户档案和行为相关属性)、应用特征(应用类别、应用大小等特定应用或服务相关属性)、上下文特征(设备名称、时间、域ID等用户交互的上下文特征)。
-
与其他公开数据集相比,工业数据集具有明显更多的场景和特征。观察到M2M和M3oE表现出优越的性能,展示了它们联合处理大量场景的能力。M2M在AUC上达到0.8392,Logloss为0.1494;M3oE的AUC为0.8384,Logloss为0.1492,两者均显著优于其他基线模型。 -
这一发现与公开数据集KuaiRand的观察结果一致,后者包含更多场景时也展示了出色的性能。这揭示了Meta Cell的创新设计和多级融合机制在处理真实世界场景时可能带来实质性改进。
8 结语
Scenario-Wise Rec基准为多场景推荐研究提供了完整的技术栈:从数据处理到模型训练,从性能评测到工业验证,构建了端到端的可复现框架。基准整合了6个公开数据集、1个工业数据集和12个代表性模型,覆盖了从经典多任务学习到最新自适应架构的技术演进路径。实验结果表明,专家混合架构和自适应机制在多场景建模中具有明显优势,特别是在稀疏场景和场景分布不平衡的情况下。工业数据集验证进一步证明了基准的实用价值,为学术研究和工业应用架起了桥梁。通过提供统一的评测标准、开源的实现代码和详细的使用文档,Scenario-Wise Rec有望成为多场景推荐领域的标准参考框架,推动该领域更快速、更规范的发展。
更多细节请见原始论文。

