

“对齐”驱动增长：快手Align³GR广告生成式推荐大模型

快手技术

2025-12-08

导读：语义 × 行为对齐有多牛？快手用两个模型讲透了

导读

短视频广告推荐中常存在用户真实需求与广告内容、历史点击行为脱节的 “错位” 问题。快手推出的 Align³GR 广告生成式推荐大模型，以 “对齐” 技术为核心破解该难题，通过从基础对齐工具 DAS 到进阶大模型 Align³GR 的两步关键进化，让推荐系统同时读懂广告内容、把握用户真实偏好并契合平台与商家诉求，最终实现用户看得顺眼、商家获得效果、平台提升收益的三方共赢。

一、引言

在推荐系统中引入语义内容信息，无论是应用于判别式还是生成式模型，均是提升模型泛化能力的关键路径。然而，语义信息所依赖的内容相似性逻辑，与推荐系统中传统协同过滤所依据的用户行为共现逻辑，在底层学习目标上存在本质差异。这种根本上的不一致，导致语义信息往往难以直接、有效地提升推荐模型的效果，也因此成为业界长期面临的核心挑战。我们将旨在弥合语义空间与用户行为空间之间差异的技术过程定义为“对齐”。

为应对语义空间与行为空间深度融合的挑战，我们系统性地探索了广告推荐系统的“对齐”技术演进：从奠定语义协同融合基础的对偶对齐式语义ID（DAS），演进至贯通“懂-会-契合”三级对齐的生成式推荐大模型（Align³GR），以期实现用户偏好与业务目标的终极对齐，具体来说：

首次提出一段式量化+对齐的语义ID框架DAS：创新性的提出了语义-协同联合训练机制，同步优化语义ID的量化与对齐过程，结合多视角对比对齐，在避免信息损失的同时能够有效提升对齐效果。截至2024年Q4，DAS已在快手商业化广告全流量推全。通过将DAS作为多模态特征与生成式推荐的底层token，有效驱动商业化广告大盘累计收入提升3.48%。相关研究成果被CIKM 2025接收。

首次提出统一多级对齐的生成式推荐框架Align³GR：通过token-behavior-preference三级对齐，有效统一了大语言模型的语义理解能力与推荐系统的协同过滤机制。截至2025年Q2，Align³GR已在快手商业化广告全流量推全。通过Align³GR构建独立召回通道，拓宽用户兴趣的召回入口，有效驱动商业化广告大盘累计收入提升1.43%。相关研究成果被AAAI 2026（Oral）接收。

二、一段式量化+对齐的语义ID框架：DAS

你刷短视频时，广告精准触达的核心靠两类信息：一是广告本身的语义信息（比如手机广告、零食广告的内容卖点），二是你的行为信息（比如常看手机测评就推手机广告）。但行业长期面临 “两张皮” 难题：懂内容的不懂行为，懂行为的不懂内容 ——AI 能读懂广告 “快充” 卖点，却不知道适配哪些未下单的手机测评用户；推荐系统能分析用户行为，却抓不住广告核心卖点。

此前行业采用 “先做内容标签、再补行为分析” 的两阶段方案，就像 “先做饭再找食客”，易导致供需错位。快手创新性提出语义 - 协同联合训练机制，核心突破是 “做饭与找食客同步进行”：给广告做 “语义 ID” 标签时，直接融入用户行为数据，让 ID 既说清 “广告是啥”，又标明 “谁会喜欢”。

[🔮 论文标题] ：

DAS：Dual-Aligned Semantic IDs Empowered Industrial Recommender System

[📖 论文地址] ：

https://arxiv.org/pdf/2508.10584

2.1 研究动机

传统语义ID的构建通常遵循以下流程：基于物品或用户的多模态内容生成语义表征，通过量化方法（如：RQ-VAE、RQ-KMeans）转化为离散的语义ID，以供下游推荐任务使用。然而，下游推荐任务的核心优化目标在于从用户行为中学习协同关系，这导致仅依赖内容生成的语义ID，其语义空间与任务所依赖的行为空间存在固有差异。

为缓解这种不一致性，我们的核心思路是：在构建语义ID的过程中，同步融入协同信号，使生成的ID既能表达内容语义，也能反映用户行为模式，从而更契合推荐任务的实际需求。

2.2 技术创新

2.2.1 框架

1、现有框架的问题

在推荐系统中，若直接使用未与用户行为对齐的语义ID（如Tiger等），由于其语义空间与推荐任务所依赖的行为空间存在固有差异，使得模型整体性能受到限制。

为弥合这一“语义‑行为鸿沟”，当前主流方案采用“两阶段对齐”框架，主要分为两种技术路径：

然而，这类两阶段框架在实践中仍存在以下关键局限，制约了其性能与普适性：

训练目标割裂：语义ID（SID）模型与协同过滤（CF）模型通常独立训练，缺乏统一的优化目标。这种分离导致二者的优化方向不完全一致，难以保证整体系统达到最优。
流程衔接不连贯：语义表征的量化过程与跨模态对齐任务分阶段执行，易造成信息损失。此外，固定的对齐策略缺乏动态调整能力，难以适应多变的真实场景需求。
互信息优化不足：由于缺乏联合优化机制，传统两阶段框架难以充分挖掘和利用语义表示与协同信号之间的深层关联，无法实现互信息最大化，限制了整体对齐的能力。

2、一段式对偶对齐式语义ID框架

为解决上述挑战，我们提出了一段式对偶对齐语义ID框架（DAS）。该框架突破传统两阶段训练的局限，通过联合训练（co-train）机制，实现语义ID量化模型与协同过滤模型同步优化，从而在端到端的学习过程中最大化语义表征与协同信号间的互信息。

该框架设计灵活，具备良好的兼容性：

语义ID量化组件：可兼容RQ-VAE、RQ-KMeans等主流量化技术。
协同过滤组件：支持DSSM、GCN等典型推荐模型。
对齐模块：采用即插即用设计，通过多视角对比学习动态地优化对齐效果，提升框架的适应能力。

2.2.2 模型方案

DAS框架包含三个协同工作的核心模块，其结构与优化目标如下图所示：

1.UISM模块：奠定高质量的语义基础

它利用MLLMs理解用户和广告的丰富内容信息，并通过RQ-VAE将其转化为离散的、具有层次结构的语义ID，为后续处理提供富含语义的标识。

各项损失的具体定义如下：

该模版的整体loss：

2.ICDM模块：净化协同信号

传统的ID-based CF表征常包含流行度等偏差，该模块通过解耦去偏学习框架，提炼出无偏CF表征，为准确对齐扫清障碍。

该模块的整体优化目标为：

3.MDAM模块：实现深度融合

通过“多视角”的对比学习策略（如下表），从不同角度促使前两个模块产出的语义ID表征和无偏CF表征相互对齐、互信息最大化，对比对齐方法使用经典的InfoNCE，最终达成语义与协同信号的有机统一。

最终的统一损失函数为：

2.3 部署&应用

2.3.1 部署

线上部署流程如下，包括：近线提取语义内容表征、在线推理语义ID和在线应用到广告推荐模型。

2.3.2 应用

DAS框架的输出可灵活应用于两类主流推荐范式：

1.判别式推荐模型的语义内容增强：这里构建了四大类语义内容增强特征，应用到判别式推荐系统的全链路级联架构（召回->粗排->精排）（下图1）。

2.作为生成式推荐模型的Token输入：在生成式推荐模型中，将用户与广告的原始ID特征升级为对偶对齐式语义ID（DAS）（下图2）。

图1

图2

2.4 实验效果

2.4.1 离线实验

基于快手广告场景的大规模数据集，对DAS进行了充分的离线实验和分析。实验结果表明：

在判别式CTR任务上，相比基线模型，能够显著提升AUC、UAUC和GAUC指标（下图1）
在生成式推荐任务的离线评估中，DAS也能够显著提升HR@K、NDCG@K等指标（下图2）

图1

图2

2.4.2 在线AB实验

在快手商业化广告推荐系统中进行严格的在线A/B测试，取得了显著的业务收益：

整体收入提升：推动商业化广告大盘累计收入提升3.48%。其中，判别式推荐模型贡献2.69%的提升，生成式推荐模型贡献了0.79%的提升。
冷启动效果：在冷启动广告素材上效果尤为突出，实现了8.98% 的显著收入提升，充分体现了DAS在解决模型泛化性问题上的强大优势。

三、统一多级对齐的生成式推荐大模型：Align³GR

如果说 DAS 给广告和用户做了 “又懂内容又懂行为” 的精准身份证，让广告推荐实现了 “精准匹配已知兴趣”；那 Align³GR 就是在此基础上，给推荐系统装上了 “聪明的大脑”—— 借助大语言模型的推理能力，让推荐从 “被动找匹配” 升级为 “主动预判潜在需求”，甚至能搞定新用户、新广告的冷启动难题。

作为 DAS 技术的自然演进，Align³GR 的核心目标是：让大语言模型真正 “懂用户和广告、会推荐、契合用户偏好”，彻底打通 LLM 的语义理解能力与推荐系统的行为匹配逻辑，实现用户、商家、平台的三方共赢。

[🔮 论文标题] ：

Align³GR：

Unified Multi-Level Alignment for LLM-based Generative Recommendation

[📖 论文地址] ：

https://arxiv.org/pdf/2511.11255

3.1 动机

大语言模型（LLM）凭借其丰富的世界知识、强大的推理能力以及优异的冷启动表现，为推荐系统带来了新的发展机遇。如何使LLM成为真正的推荐系统？核心挑战在于：LLM的语言语义空间与推荐系统的用户行为空间之间存在固有差异。

为弥合这一差距，必须构建一套统一的多级对齐机制，系统性地引导LLM从“理解用户与广告”逐步演进至“掌握推荐功能”，并最终实现“与业务目标深度融合”。这一演化过程可具体分解为三个递进阶段：

1.“懂”阶段（理解用户与广告）：设计高效的特征表示方法，将用户行为与广告信息转化为LLM可处理的Token表示。

2.“会”阶段（掌握推荐能力）：激发LLM的推理与生成能力，使其能够执行如广告生成、排序等核心推荐任务。

3.“契合”阶段（对齐业务偏好对齐）：将LLM输出与业务目标（如用户体验、平台收益）进行优化对齐。

3.2技术创新

为系统性解决LLM与推荐系统之间的语义-行为鸿沟，我们围绕 “对齐” 这一核心，在三个不同层级上进行了技术创新，构建了从基础词元、到任务能力、最终至业务目标的递进式对齐体系。

3.2.1 Token-level Alignment

核心挑战：如何让推荐系统真正“懂得”用户与广告？关键在于构建一个能同时理解丰富语义信息与用户协同行为的统一表示体系。

解决方案演进：为解决语义信息与协同信号的高效融合问题，技术路径从DAS的“注入式”对齐，演进至SCID的“一体化”融合。

DAS（协同信号注入）：在语义ID的构建过程中引入协同信号，通过对齐方式将两者关联。
SCID（语义-协同ID体系）：在DAS基础上更进一步，将语义与协同信息在表征层面深度融合，形成统一的“语义-协同”ID，为下游任务提供兼具内容理解能力和行为洞察力的基础标识。

SCID建模，包含以下两个关键组成部分：

1.语义-协同融合：

该部分核心在于通过双编码器与融合模块，将不同来源的信息进行统一。使用Semantic编码器提取用户与广告的语义表征（如文本、图像等多模态内容特征），使用Collaborative编码器提取协同表征（如历史交互、共现行为等信号）。

将两类表征拼接后，输入专用的SC编码器进行深度融合，生成统一的语义‑协同融合表征。最后，基于RQ‑VAE对该融合表征进行量化，生成兼具语义信息与协同信号的ID体系。

2.U2I对齐任务：

为促使模型学习到的融合表征与真实的广告推荐场景对齐，设计了用户‑广告行为对齐任务（U2I Alignment）。该任务一方面旨在增强模型在U2I行为层面的直接对齐能力，另一方面也作为一个重要的驱动信号，迫使SC编码器必须充分学习和利用融合后的表示，而不仅仅是依赖单一信息源。

其核心优势在于，通过显式地引入与业务目标（如点击、转化）强相关的监督信号，使模型内部学习到的表示与下游推荐任务的优化目标保持一致，从而提升最终效果。

整体Loss包括语义ID量化和U2I对齐两部分：

SCID相比于传统SID的优势在于：具备更强的多源信息融合能力和对齐能力，同时兼顾Token空间友好、训练和推理性能友好等优势。

3.2.2 Behavior-level Alignment

为了让LLM-based GR具备基础推荐能力，我们采用多任务监督微调框架进行对齐优化，具体设计如下：

1. 生成式序列建模主任务

以之前构建的用户SCID及其历史交互行为的广告SCID序列（如like/goodsview/cartclick/orderpay等）构建输入Prompt，基于Next Token Prediction任务进行生成式训练，使模型能够基于用户行为历史自回归地预测下一个可能交互的广告SCID。

2. 显式索引‑语言对齐任务

通过引入双向语义对齐机制，显式建立SCID与其对应语义信息之间的映射关系，增强模型对SCID语义含义的结构化理解能力。

3. 隐式推荐导向对齐任务

联合训练序列建模与用户兴趣推理任务，使模型能够隐式学习SCID在推荐场景中的上下文语义与行为模式，进一步激发其深度推理与泛化能力。

3.2.3 Preference-level Alignment

在真实推荐场景中，若直接使用真实稀疏反馈进行强化学习（RL），主要面临训练不稳定、以及与监督微调（SFT）阶段样本分布差异大导致的收敛困难。

解决方案：渐进式RL偏好对齐

我们借鉴课程学习思想，提出渐进式RL偏好对齐方法，将学习过程分解为“由易到难”的渐进阶段：

Easy 阶段：渐进式Self-Play DPO（SP-DPO）。采用SP‑DPO方法，将模型生成结果与真实next SCID进行对比，构建自博弈生成的稠密奖励信号，使模型初步建立偏好对齐能力。
Hard 阶段：渐进式Real-Feedback DPO（RF-DPO）。在模型具备初步对齐能力后，进一步使用RF‑DPO方法，将生成结果真实推送给用户并收集反馈，基于稀疏真实信号进行奖励建模，实现贴近实际业务场景的偏好对齐。

注：该方法基于Softmax-DPO实现，正负样本（chosen/rejected）比例为1:20。其渐进式RL思想同样适用于GRPO系列方法（在Align³GR迭代过程中已得到验证）。

渐进式SP-DPO实现细节：

在SP-DPO阶段，基于SCID层次化的特性，构建了渐进式学习方法，即对于一个prompt ，构建由易到难的偏好样本对集合：

每个集合中的chosen response 保持一致，均为真实next SCID，而则是一个rejected responses集合，从对prompt x生成的N个responses其选取，选取方式为：使用PNM（Prefix-Ngram Match）计算两个SCID的前缀匹配个数，值为0表示chosen和rejected样本相差甚远，两者区分性大，较为容易学习，反之值越大表示chosen和rejected response越相似，两者越难区分，越难学习，按照SCID层次化的特性，约定 , , 。通过利用当前模型的生成数据和用户真实偏好来初始化训练构造偏好样本对。

为了持续提升模型的用户偏好捕捉能力，在渐进式学习的每一阶段，我们将上一阶段训练收敛的模型作为当前阶段的参考模型进行初始化，即

，其中

。

渐进式RF-DPO实现细节：

接下来就是进一步提升广告业务价值与用户真实兴趣偏好的对齐效果，我们基于用户实际反馈信号构建样本进行偏好学习。具体而言，根据用户对广告行为的偏好程度，构建不同难度的样本对集合

，用户真实反馈下的easy和hard样本集合，详情如下表：

沿用上述渐进式学习策略，依次学习不同反馈难度的用户偏好数据，并将前一步训练好的模型作为当前步骤的参考模型，即

，其中

。

3.3 实验效果

3.3.1 离线实验

在公开数据集的离线实验上，Align³GR取得了SOTA效果。在Instruments数据集上的Recall@10和NDCG@10评估上，分别以17.8%和20.2%的显著优势超越已有最佳基线模型。为进一步验证框架设计的有效性，我们进行了系统的消融实验。其性能变化曲线清晰表明，我们所提出的统一多级对齐框架中的每一组成部分均对最终效果的提升具有重要贡献，从而实证了该框架设计的合理性与必要性。

3.3.2 在线AB实验

我们基于Qwen2.5-1.5B基座模型，采用上述统一多级对齐框架，成功构建了面向广告场景的生成式推荐大模型，并完成大规模线上部署。

该模型通过预估生成TopK语义协同ID（SCIDs），并以此构建独立召回通道（消耗占比超过20%），有效拓宽了用户兴趣的覆盖范围与召回多样性。在快手商业化广告平台进行的严格线上A/B测试取得了积极的业务成果：该方案推动整体广告大盘收入提升1.432%。尤其在冷启动场景表现突出：针对低活跃度冷启动用户，广告收入提升达9.6%；在冷启动广告素材上，收入也实现2.18%的增长，验证了生成式推荐在业务增量上的实际价值。

四、结语

快手商业化算法团队以语义与行为信号的“对齐”技术为核心驱动力，构建了从对齐式语义ID（DAS）到多级对齐的生成式推荐大模型（Align³GR）的渐进式技术路径，这一体系化演进显著提升了广告匹配效率和平台整体广告收入。

未来，我们会继续将前沿AI技术深度融入广告系统，通过生成式推荐大模型、智能出价等核心技术的规模化落地，驱动广告匹配效率与用户体验的双重提升，实现智能广告体验的持续进化。

- END -

”

欢迎加入

【我们是谁】

商业化算法部是快手核心算法部门，负责快手国内及海外多场景的变现算法研发，致力于建设领先的广告变现算法，通过算法驱动商业营销增长，不断优化用户和客户体验，引领行业创新型解决方案，推动行业变革。具体技术职责包括：

广告推荐模型：针对数亿网民 & 亿级广告库设计实现召回、排序（点击率、转化率）模型，基于大模型技术，提升广告模型的预估能力。
客户策略算法：构建业界领先的广告智能投放平台，通过强化学习、生成模型等技术，最大化广告主长短期收益。
流量机制策略：针对每天百亿流量请求 & 数十种差异化场景，设计创新的拍卖机制和分配算法，在自然推荐、广告、电商、直播等多种流量混排下，提升快手商业化整体变现能力。
创意智能算法：利用先进的大模型和AIGC技术，构建业界领先的商业场景下多模态理解和生成技术平台，提升广告素材创作和流量分发效率。
本地生活推荐算法：致力于实现先进的近场推荐分发算法，为用户提供便捷的本地生活服务，通过技术拓展业务边界，提升本地业务GMV。

团队成员多来自国内外顶尖高校，以及头部大厂核心团队。团队推荐相关技术获得了24年钱伟长科技进步一等奖。出价上基于RL和生成模型在NIPS 24年广告出价比赛获得双赛道第一名。近年团队技术成果在KDD/WWW/ICLR/NIPS/CVPR/ICCV/AAAI等顶会上发表论文30+，其中不乏获得Cikm Best Paper，Sigir Best Paper提名奖。

【热招岗位】