大数跨境
0
0

AAAI2026 | GenCDR: 基于自适应语义Tokenization的生成式跨域推荐

AAAI2026 | GenCDR: 基于自适应语义Tokenization的生成式跨域推荐 机器学习与推荐算法
2025-11-24
0
导读:这篇工作把跨域推荐从传统的「共享 ID + 表征对齐」思路,推进到一个真正语义驱动、生成式建模的新范式
嘿,记得给“机器学习与推荐算法”添加星标

TLDR:这篇工作把跨域推荐(Cross-Domain RecommendationCDR)从传统的「共享 ID + 表征对齐」思路,推进到一个真正语义驱动、生成式建模的新范式。现实世界里,大多数跨域场景根本没有统一的 user / item ID,现有 CDR 方法在工业落地时非常受限;而 LLM-based 推荐虽然强大,却普遍卡在两个核心瓶颈:一是 item tokenization 困境——要么词表爆炸,要么无法表达高阶协同信号;二是 domain personalization 缺失——只能学到一份「泛化偏好」,却难以细粒度刻画不同域里的兴趣表达。GenCDR 的核心做法,是先把多域内容统一压缩到一套离散语义 ID(Semantic IDs, SIDs)上,再让 LLM 在这套语义 ID 上做生成式推荐,并通过域自适应建模和前缀树约束,兼顾表达力、效率与可扩展性。实验表明,GenCDR 在多个真实跨域数据集上,相比单域推荐、经典 CDR、现有生成式推荐和 LLM4CDR 方法均有显著提升。

论文:https://arxiv.org/pdf/2511.08006

引言

随着用户行为越来越跨场景、多模态、多平台,跨域推荐成为现代推荐系统的核心能力。然而传统 CDR 通常依赖共享用户或商品 ID 进行知识迁移,而在真实世界中,不同平台、不同业务、不同商品体系之间几乎不存在稳定的 ID 对齐关系。

图1:跨域场景示意

如图1所示,“Apple”在不同域具有完全不同的语义:在科技域,它是健康监测、智能生态的 Apple Watch;在生活域,它是甜度、营养相关的新鲜水果。它们共享一部分语义,但又有强烈的域特性。传统 ID 根本无法表达这些语义差异,而简单拼接文本让 LLM 直接学习,又会带来词表膨胀、结构缺失等问题。

基于这一观察,本文提出一个关键观点:跨域推荐真正需要的,不是对齐 IDs,而是对齐语义空间。换言之,跨域知识迁移的核心在于构建一个既能跨域共享,又能保留域特定细粒度差异的统一离散语义空间(Semantic ID space)。

为此,本文提出 GenCDR 框架,旨在系统解决跨域推荐中的两类长期瓶颈:

  • Item Tokenization Dilemma:如何在不同域之间获得可生成、可检索、且语义融合共性与特性的离散表示;
  • Domain Personalization Gap:如何同时建模跨域共享兴趣与域内特定偏好,而不发生负迁移。

GenCDR 提供了一个完整的生成式跨域范式,包括:

  • Domain-adaptive Tokenization:通过“通用语义编码器 + 域自适应 LoRA”生成统一但可调节的语义 IDs,动态分离通用语义与域特定语义;

  • Cross-domain Autoregressive Recommendation:在用户侧构建对称结构,通过“通用兴趣建模 + 域自适应兴趣路由”实现多域用户兴趣的动态融合;

  • Domain-aware Prefix-tree 推理机制:确保生成的 Semantic IDs 合法、高效,并适配目标域的语义结构。

方法

为了解决跨域推荐的根源性瓶颈,本文提出了 GenCDR(Generative Cross-Domain Recommendation)。它通过“语义 tokenization → 生成式序列建模 → 结构化解码”三层机制,从根本上重塑跨域推荐的建模方式。

图2:GenCDR 整体架构 (Tokenization → Autoregressive Generation → Prefix-tree Decoding)

GenCDR 核心包含三个阶段:

  1. Domain-adaptive Tokenization:构建跨域统一语义 ID: 为了摆脱传统 item ID 无法迁移的问题,GenCDR 首先利用 RQ-VAE 学习一个跨域共享的语义空间,并通过 LoRA 轻量适配不同 domain 的语义差异。进一步地,一个 item-level 动态门控会在“通用语义”与“域特定语义”之间自适应融合,最终将每个 item 编码成可生成、可迁移的 Semantic ID,使所有商品在跨域场景下拥有统一的表达形式。

  2. Cross-Domain Autoregressive Recommendation:用 LLM 生成跨域兴趣序列: 在 item 获得语义化表达后,用户的多域行为也被统一成了一条可生成的语义序列。GenCDR 通过 LLM 进行自回归建模:先训练一组“通用 LoRA 专家”学习跨域共享偏好,再为每个 domain 训练专属 LoRA 适配不同行业的细粒度兴趣。推理时,一个 user-level 动态路由器会根据用户状态融合“通用偏好”与“域特定偏好”,从而同时捕捉跨域可迁移兴趣与单域个性化模式。

  3. Domain-aware Prefix-tree:保证生成式推荐合法高效: 为避免 LLM 出现不存在的 item(hallucination),GenCDR 为每个 domain 构建 prefix-tree,将生成空间限制在真实存在的语义前缀集合中。解码过程中模型只能在合法路径上前进,使生成结果始终对应真实 item,同时推理复杂度与 item 总规模解耦,具备大规模工业部署的实际可用性。

实验

  1. 整体效果(Overall Performance):在所有数据集上,GenCDR 在 Recall@5/10 与 NDCG@5/10 均稳定超越单域模型(SASRec、BERT4Rec)、生成式模型(TIGER、VQ-Rec)以及最新跨域方法(TriCDR、LLM4CDSR)。尤其在极低重叠且高度稀疏的 Phones–Electronics 场景,GenCDR 依然取得最优结果,表明语义 ID 与跨域生成式建模能够有效弥补 domain gap,提高泛化能力。
  1. 消融实验(Ablation Study):对三个核心模块分别进行拆解验证。移除 Domain-adaptive Tokenization 会导致跨域表达混乱,性能显著下降;去除 domain-specific LoRA 则削弱了用户兴趣在不同场景中的差异化建模能力;取消 Prefix-tree 解码会产生大量不合法 ID,导致生成质量与下游指标明显退化。结果表明三大模块缺一不可,完整 GenCDR 始终最优。
  1. 语义空间可视化验证 (In-depth Analysis): 对最终的语义表示进行了 t-SNE 分析,结果显示 Domain-adaptive Tokenization 能让不同 domain 的 items 自然分簇,而跨域相似商品依旧保持语义邻近;同时,在用户序列层面,GenCDR 生成的跨域行为轨迹呈现清晰的语义迁移模式,验证了模型成功同时捕捉“共享语义”与“域特定差异”,也是其在低重叠高稀疏场景仍能稳定领先的关键原因。

总结与展望

GenCDR 通过引入统一且可适配的离散语义空间,为跨域推荐构建了一条新的生成式路径。从通用语义到域特定语义,从用户共享偏好到个性化兴趣表达,再到域感知的结构化生成,GenCDR 提供了一套可解释、可扩展、且与大模型原生契合的系统化范式。实验结果表明,这种“从 ID 到语义(From IDs to Semantics)”的生成式转向,不仅有效缓解了长期存在的 tokenization 困境,也显著提升了跨域推荐的泛化性与表达能力。整体而言,GenCDR 展示了生成式方法在跨域推荐中的可行性与潜力,也提出了新的研究方向:以语义为基础、以生成为核心,以跨域一致性与个性化共存为目标,构建下一代统一的推荐范式。


欢迎干货投稿 \ 论文宣传 \ 合作交流

由于公众号试行乱序推送,您可能不再准时收到机器学习与推荐算法的推送。为了第一时间收到本号的干货内容, 请将本号设为星标,以及常点文末右下角的“在看”。

喜欢的话点个在看吧👇

【声明】内容源于网络
0
0
机器学习与推荐算法
专注于分享经典的推荐技术,致力于传播基础的机器学习、深度学习、数据挖掘等方面的知识。
内容 626
粉丝 0
机器学习与推荐算法 专注于分享经典的推荐技术,致力于传播基础的机器学习、深度学习、数据挖掘等方面的知识。
总阅读186
粉丝0
内容626