

更长也更快: 抖音亿级规模 10k 序列端到端建模

机器学习与推荐算法

2025-11-12

导读：字节抖音团队工作

嘿，记得给“机器学习与推荐算法”添加星标

TLDR: 针对工业级推荐系统中用户行为序列长度扩展至10 000条目同时保证训练与推理效率的问题，本文在字节抖音实践中提出了以 “Stacked Target-to-History Cross Attention” 为核心的模型结构、用户请求级 Batching 技术以及 “Train on 较短序列／Infer on 超长序列”策略，从而实现序列建模复杂度由二次降至线性，并在生产环境中获得显著效果提升。

论文：https://arxiv.org/abs/2511.06077

1.1 简要总结

端到端长序列建模：在严格线上时延与成本约束下，把用户历史长度扩展到 10k，并保持稳定、可预期的增益。
STCA（Stacked Target-to-History Cross Attention）：以“目标→历史”为单查询交叉注意力，移除历史自注意力，将复杂度从 O(L²) 降为 O(L)，更契合排序任务的本质相关性计算。
RLB（Request Level Batching）：请求级聚合同一用户的多个目标，用户/历史编码算一次、复用多次，端到端实测：带宽减少 77%（L=512）~84%（L=2k）、训练吞吐 +2.2×（配合内核优化可达 +5.1×）、最长可训练序列约 +8×、PS CPU/通信带宽 -50%。
“训练稀疏 / 推断稠密”外推：训练平均长度约 2k，上线推断直接 10k；采用 U 形 Beta 随机长度采样与最近后缀保留策略，在不显著增加训练成本的前提下获得长序收益。
效果亮点：

离线：在抖音数据上，相比强基线，Ours（STCA+RLB+外推）在 Finish/Skip/Head 上分别达 +0.49/-1.16、+0.71/-1.14、+0.39/-1.41（ΔAUC/ΔNLL，%）。
线上（抖音 & 抖音极速版，1 个月）：全量上线后核心互动、停留、活跃一致提升（详见表 6）。

1.2 背景与挑战

短视频推荐中，用户历史常达数千甚至上万条。传统“两阶段”（检索→截断排序）虽高效，但截断会牺牲端到端信息与梯度传导；自注意力长序方法受限于平方复杂度，难以在线上预算下扩展到 10k。
我们的目标是：兼顾效果与工程可落地，真正把历史拉长到 10k，并在规模化生产系统中稳定获益。

1.3 方法总览

1.3.1 STCA：目标→历史的单查询交叉注意力（线性复杂度）

核心思想：排序的关键信号来自“候选目标与用户历史”的匹配。让目标作为唯一 Query，对全历史做交叉注意力；不进行历史—历史的自注意力。
带来的好处：每层复杂度 O(L)，将算力聚焦在“任务关键路径”，支持更长历史、更深堆叠的端到端建模；配合跨层目标条件融合（query fusion）和 SwiGLU 前馈，在长序下仍保持稳定与表达力。

图 1：序列长度与模型容量的扩展下，完播率 AUC 提升随之单调增长（Scaling）。

1.3.2 RLB：请求级聚合，算一次用多次

做法：将同一用户/请求内的多个目标样本组成用户batch，用户/历史编码共享，在多个目标上复用。
系统实测收益：端到端带宽 -77%（L=512）~ -84%（L=2k）；训练吞吐 +2.2×（配合重排 attention/SwiGLU/LN 内核可达 +5.1×）；最长可训练序列约 +8×；PS CPU 与通信带宽 -50%。
学习无偏：RLB 仅改变数据组织与复用，不改变经验风险目标与梯度估计。

图 2：抖音精排长序列建模 (A) STCA；(B) RLB；(C) 外推训练。

1.3.3 训练稀疏 / 推断稠密：长度外推

训练：随机长度采样（U 形 Beta），平均 ≈2k；
推断：直接 10k；
策略：最近后缀保留优于随机；批级负载均衡 + Ragged 注意力降低 padding 浪费。
收益：以低训练成本换取高长度泛化，达到成本—效果双优。

图 3：STCA vs Transformer 的计算量–效果对比：在相近 NLL 下，STCA 可在 L=10k 以显著更低 FLOPs 运行。

1.4 我们方法的优势（Why It Wins）

线性复杂度、真长序：从根因上消除了二次复杂度，10k 历史可在线落地，同时为更深/更宽模型留出余量。
端到端、无截断：保留完整历史上的精确注意力与梯度，避免检索/截断带来的信息损失。
系统工程友好：RLB 有效抵消长序引发的带宽、显存与通信压力，吞吐显著提升、资源更可控。
外推训练高性价比：训练长度与推断长度解耦，以2k 的成本获得10k 的收益。
线上业绩稳定：在亿级规模下全量上线并持续提升核心指标，对低/中活跃用户尤为明显。

1.5 结果一览

1.5.1 离线（抖音）

表 1：Douyin 离线主结果（单位：%，报告 ΔAUC↑ / ΔNLL↓）。

关键结论：在 Finish/Skip/Head 三目标上，Ours（STCA+RLB+外推）分别达 +0.49/-1.16、+0.71/-1.14、+0.39/-1.41，在相近算力与相同非序列特征下显著优于DIN/Transformer/HSTU 等对照。

图 1：随历史长度与容量扩大，效果单调提升（Scaling）。

图 3：在相近 NLL时，STCA 的 FLOPs 明显低于 Transformer，长序区间前沿更优。

1.5.2 消融

表 2：512-token 条件下 4 层复杂 STCA 的消融对比（如：更深 STCA、FFN→SwiGLU、时间差特征、增头数、Query Fusion 等均带来正向增益）。

1.5.3 外推训练

表 3：最大训练长度的影响（2k → 4k → 10k，AUC 持续提升）。

表 4：平均训练长度的影响（1.0k → 2.0k → 2.5k，收益递减；均值≈2k 性价比最佳）。

表 5：Beta 分布形状分析（小 α 的 U 形分布优于其他形状）。

1.5.4 线上 A/B

表 6：上线 1 个月对照组提升（%），含全体与分群指标。

要点：

抖音（全体）：30日活跃 +0.1161%、停留 +0.9266%、完播 +3.3454%、评论 +1.5678%、点赞 +1.8282%。

抖音极速版（全体）：30日活跃 +0.1281%、停留 +0.8467%、完播 +4.2275%、评论 +2.6167%、点赞 +2.3828%。

分群：低/中活用户提升更大；时延持续满足实时预算。

1.6 工程与上线实践

内核优化：单查询注意力计算顺序优化、高吞吐 SwiGLU/LN、Ragged 注意力降低 padding。
资源与调度：RLB 显著降低带宽与激活峰值，提升集群利用率与训练稳定性。
可组合性：与多目标、多模态、检索/记忆模块互补，便于在现有推荐栈渐进式融合。

1.7 总结

本文在“长序列但低时延、低成本”的工业约束下，给出了一条可落地、可扩展、可复用的端到端建模路线，核心贡献与价值体现在以下四个方面：

架构层：STCA 让长序真正可行
以“目标→历史”的单查询交叉注意力替代历史自注意力，将复杂度从 O(L²) 降为 O(L)；配合跨层目标条件融合与高表达力前馈（如 SwiGLU），在不依赖检索截断的前提下对完整历史进行精确对齐和端到端学习，支撑 10k 级历史的稳定建模。
系统层：RLB 把长序成本打下来
在“请求级”聚合同一用户的多个目标，用户/历史编码一次计算、多处复用，显著降低带宽、激活与显存占用，提升训练吞吐并抬升可训练长度上限；同时保持学习目标无偏，效果不打折、系统更友好。
训练策略：用“稀疏训练”换“稠密推断”
通过 U 形 Beta 随机长度采样与最近后缀保留，以约 2k 的平均训练长度获得 10k 的推断收益；批级负载均衡与 Ragged 注意力避免 padding 浪费，实现成本—效果双最优。
效果与落地：规模验证、稳健增益
离线与线上实验均显示随着历史长度与模型容量扩展呈稳定单调增益；在亿级规模与实时预算条件下实现全量上线，核心互动、停留与活跃指标持续提升，尤其对低/中活跃用户更为友好，证明方案的工程可行性与业务价值。

一句话总结

STCA（线性复杂度）× RLB（请求级复用）× 外推训练（2k→10k），构成了长序端到端推荐的实用范式：既把序列拉长，又把时延拉平；既强效果，又强工程。 该范式与多目标、多模态及检索/记忆模块天然互补，可在现有推荐栈中渐进式集成与持续演进。

欢迎干货投稿 \ 论文宣传 \ 合作交流

由于公众号试行乱序推送，您可能不再准时收到机器学习与推荐算法的推送。为了第一时间收到本号的干货内容，请将本号设为星标，以及常点文末右下角的“在看”。

喜欢的话点个在看吧👇

【声明】内容源于网络