近日,快手首次提出生成式强化学习出价技术,并将其应用于大规模广告系统中。这项技术的核心突破在于实现了广告出价策略从传统“依赖单步状态决策”到新一代“序列决策”的关键跨越。
聚搜营销将为你介绍快手首创生成式强化学习出价技术:实现“序列决策”跨越,广告收入提升3%。
通过为广告主带来更高的投放回报,同时提升平台整体收益,真正实现了双赢。据统计,2025年至今,该技术已成功推动快手广告收入提升3%,成效显著。
1. 广告出价的复杂挑战:序列决策与不确定性
在实时竞价(RTB)广告系统中,出价模块作为连接广告主与流量的核心枢纽,被称为实时竞价中的“智能大脑”。然而,这一过程面临三大挑战:
效益与支出的双重优化:广告主需要严格控制单日花费在预算范围内,同时还要努力降低每次转化的成本(CPA),实现成本效益的双重优化。
环境的不确定性:系统难以预知即将到来的流量状况与竞争对手行为,需要依赖实时数据动态调整策略。
决策的连锁影响:每一次出价都会改变账户状态(如剩余预算),进而干扰后续出价决策,使问题成为一个连续且复杂的序列决策问题。
2. 技术创新:融合生成模型与强化学习实现长序列优化
快手出价技术已历经三代演进:从适应性有限的 PID 控制;到易陷局部最优的 MPC 预测模型;再到兼顾效果与安全性、最大化长期收益的第三代强化学习。
近年来,尽管强化学习表现优异,但其决策仍依赖单步状态信息,对序列历史利用不足。而生成式模型虽擅长序列建模,却不擅长直接优化目标收益。面对这一挑战,快手创新融合两类技术,提出生成式强化学习出价技术——在继承生成模型序列建模能力的基础上,引入强化学习的目标导向优化机制,实现出价策略在长序列决策中的新突破。

3. GAVE与CBD算法:双算法驱动智能决策升级
在将生成模型应用于强化出价策略的过程中,快手提出了 GAVE 和 CBD 两大创新算法,实现了广告出价的“多维思考”:
GAVE 算法:融合了 Score-based RTG 机制与价值函数引导的动作探索策略,显著提升了离线训练中的探索能力。该成果助力团队荣获 NeurIPS 2024 自动出价竞赛双赛道冠军。
CBD 算法:聚焦于生成模型与优化目标的对齐问题,引入“Completer(扩散补全)”和“Aligner(偏好对齐)”双模块,通过补全未来状态轨迹并进行校准,使出价策略更贴合广告主真实需求,提升了系统的长程规划与决策可解释性。
4. 成果与展望:营收显著提升,未来将构建出价基座大模型
生成式强化学习出价技术已在快手广告系统中全面部署,取得了显著成效:
平台收益:推动快手平台广告收入提升3%。
客户指标:在成本控制场景中,消耗提升 2.0%,CPA 达标率提升 1.9%。
展望未来,快手将围绕两大方向持续演进:一是构建出价基座大模型,整合多场景数据训练通用模型;二是发展出价推理大模型,引入大语言模型增强推理能力,提升可解释性与复杂决策水平。快手将继续推动自动出价技术向更高层次的智能化迈进,为数字营销行业注入创新动力。

