— 百度 COBRA —
生成式AI驱动
推荐系统的里程碑式创新
在当今数字时代,生成式AI技术的迅猛发展宛如一股强劲的浪潮,正以前所未有的力量冲击着各个行业。2025年,这一领域的创新更是呈井喷之势,DeepSeek R1凭借其卓越的推理能力,如同点燃了AI智力增长的火箭;OpenAI对GPT - 4o的图像生成功能进行更新,瞬间在全网掀起了一股梗图和玩梗视频的创作热潮,其渲染的《星际穿越》电影片段更是让人惊叹于AI的强大“想象力”。而在科技领域,生成式AI也在悄然改变着人们获取信息的方式,特别是在推荐系统方面,基于先进大模型的应用正引发一场深刻的革命。
推荐系统在数字生态中占据着举足轻重的地位,它广泛应用于电商平台、视频App和社交网络等各个领域,是为用户提供个性化内容的核心技术。然而,随着用户需求的日益多样化和复杂化,传统的推荐方法逐渐显露出其局限性。传统的序列推荐方法难以满足用户对推荐准确性和多样性的更高要求,而生成式检索(Generative Retrieval)则为推荐系统的发展带来了新的希望。
与传统方法不同,生成式模型能够根据用户的行为更加直接地进行预测,通过处理复杂的用户 - 商品交互,提供推理和小样本学习等新能力,从而大幅提高推荐的准确性和多样性。但是,生成式检索方法也面临着一些挑战,其中最为突出的就是难以进行细粒度相似性建模。谷歌的TIGER是生成式检索领域的知名方法,而百度则在这一领域取得了重大突破,提出了级联组织双表征生成式检索(Cascaded Organized Bi - Represented generAtive Retrieval,COBRA)框架,为生成式推荐系统的发展开辟了一条新的道路。
百度研究团队在广告场景中的生成式推荐任务上进行了长期而深入的探索,经历了多个阶段的技术发展,并针对每个阶段暴露出来的技术缺陷进行了持续优化和完善。
最初,百度采用了“纯文本表征 + LLM建模”的方案。该方案直接利用LLM进行推荐,通过广告的标题、落地页等文本信息来表征item。这种方法虽然能够辅助理解用户意图,提高推荐的可解释性,但却存在着严重的问题。超长的输入导致了巨大的资源和性能开销,使得运行成本居高不下,在实际应用中难以大规模推广。
随后,研究团队尝试通过短语来表征item。然而,短语很容易出现信息压缩过度、表达不全的情况,无法全面描述item的各种属性。此外,item之间的序列关系更侧重于兴趣协同,而并非单纯的语义关系,这与LLM建模的语义关系存在着较大的鸿沟,导致推荐效果并不理想。
在意识到无法简单直接使用现有方法后,研究团队开始考虑对item进行压缩表达,以全面满足性能、信息完备和item关系建模的要求。于是,他们形成了“稠密表征 + 对比学习度量”的方案。该方案的核心在于将item表征为稠密向量,通过引入一个编码器逐个对item内容进行编码,将item序列转变为一组向量序列并输入到一个Causal Decoder中,然后通过Next Item Prediction的方式完成模型训练,在训练中引入对比学习,使得编码器、解码器能够同步更新。在推理阶段,算法通过编码器输出item向量来构建索引,并通过向量序列输入到解码器中获取用户表征,最终完成ANN召回。这一方案在表达能力上有了显著提升,能够完整利用item原始信息,对比学习也保证了端到端训练,进一步建模了序列中隐含的协同信息。然而,该方案仍然是在较大的稠密空间上建模,缺少了兴趣探索过程,建模复杂度并未降低。
接着,研究团队受到谷歌TIGER的启发,尝试了“稀疏表征 + 稀疏ID生成”的方案。该方案通过稀疏ID来表征item,具体实现过程为:首先通过商业预训练模型对广告特征进行嵌入,然后使用残差量化变分自编码器(RQ - VAE)将嵌入向量量化为带层次结构的ID Tuple(如L1、L2、L3),最后将ID序列输入到Causal Transformer并通过下一个ID预测来建模序列。在推理阶段,在给定用户行为序列的情况下,模型可以通过自回归方式生成下一个可能的广告ID。稀疏表征的引入充分发挥了“嵌入 + 量化”的作用,将item转化为ID,使模型能够在压缩空间中学习用户兴趣转移,尤其适合高度个性化推荐场景中的“千人千面广告推送”。然而,由于“嵌入、量化、序列建模”相互隔离,不可避免地出现了信息损失,导致对用户偏好的精细变化捕捉效果较弱。
在尝试了以上多种技术方案之后,研究团队深刻认识到了单一表征方式难以同时兼顾粗粒度类别信息和细粒度特征信息的局限性。于是,他们提出了COBRA框架,通过级联方式融合稀疏ID和稠密向量表征,形成了“稀疏 - 稠密级联表征 + 生成度量一体化”方案,大大增强了模型的灵活性和适应性。
COBRA框架作为一种新型的生成式推荐框架,具有以下四大核心创新点:
COBRA框架将稀疏ID和稠密向量集成在一个统一的生成式模型中,每个item的稀疏ID和稠密向量组合起来形成级联表征。这种方式充分兼顾了稀疏与稠密表征的优点,为模型提供了更全面的item特征。稀疏ID通过离散约束为模型提供了稳定的类别基础信息,而稠密向量则确保模型能够捕获高级语义和细粒度细节。例如,在广告推荐中,稀疏ID可以表示广告的类别,如“美妆”“电子产品”等,而稠密向量则可以进一步描述广告的具体属性,如品牌、价格、功能等。
COBRA框架将目标item的概率分布建模分为两个阶段,利用稀疏与稠密表征的互补优势进行交替预测。具体来说,COBRA采用Causal Transformer统一生成式模型接收级联表征作为输入,从而捕获序列依赖关系。在训练过程中,模型首先根据历史交互序列预测下一个稀疏ID,然后在稀疏ID的基础上预测对应的稠密向量。这种交替学习的方式使得模型能够在不同的粒度上对用户兴趣进行建模,提高了推荐的准确性和多样性。
COBRA框架的端到端训练过程旨在同时优化稀疏和稠密表征预测。训练过程由一个复合损失函数控制,该函数结合了稀疏ID预测和稠密向量预测的损失。稀疏ID预测损失在基于历史序列预测下一个稀疏ID的过程中,保证了模型的效率;稠密向量预测损失用于细化稠密向量。同时,该稠密向量由端到端的可训练编码器生成,并在训练过程中进行优化,从而适应不同推荐任务的特定需求。这种双目标的损失函数可以实现均衡的优化过程,使模型在稀疏ID的指导下动态地细化稠密向量,同时端到端的训练方法可以捕获高级语义和协同信息。
COBRA框架在推理阶段采用由粗到细的生成过程,先生成稀疏ID,后细化稠密向量。具体地,首先基于用户历史交互序列,使用Transformer解码器建模的ID概率分布,并利用BeamSearch算法生成下一个item的稀疏ID。然后,将生成的稀疏ID追加到输入序列中,作为条件进一步生成对应的稠密向量,捕获item的细粒度特征。同时引入BeamFusion机制,并结合BeamSearch和近邻检索分数,在确保推荐精度的同时保证召回广告候选的多样性。这种由粗到细的生成过程不仅提高了推荐的效率,还增强了推荐的准确性和多样性。
为了验证COBRA框架的有效性,研究团队使用公开和工业数据集进行了全面评估,并重点展示了COBRA提升推荐准确率和多样性的能力。
在公开数据集上,研究团队使用了Amazon Product Reviews数据集,并重点分析了“Beauty”“Sports and Outdoors”以及“Toys and Games”三个子集。实验结果表明,COBRA在这些数据集上的表现均优于目前业内最先进的方法。例如,在“Beauty”数据集上,COBRA的Recall@5和Recall@10相比之前的最佳模型TIGER分别提升了18.3%和11.9%;在“Sports and Outdoors”数据集上,COBRA的Recall@5和NDCG@10相比TIGER分别提升了15.5%和18.8%;在“Toys and Games”数据集上,COBRA的Recall@10和NDCG@10相比TIGER分别提升了24.5%和19.2%。
对于行业数据集,研究团队采用了Baidu Industrial数据集,该数据集基于百度广告平台上的用户交互日志构建,涵盖了列表页、双栏、短视频等多种推荐场景,包含了500万用户和200万条广告,全面展现了真实用户行为和广告内容。实验结果显示,相较于三种变体(COBRA w/o ID、COBRA w/o Dense、COBRA w/o BeamFusion),COBRA均体现出了显著的优势,从而验证了该框架中各个组件的有效性。例如,在K = 800时,COBRA的召回率为0.4466,相较没有稀疏ID的变体提升了43.6%,相较没有BeamFusion的变体提升了36.1%。
为了评估COBRA的表征学习能力,研究团队对广告稠密嵌入展开了相似度矩阵分析。结果表明,COBRA模型具有很强的类别内聚性和类别间分离性,能够将同一类别的项目紧密地聚集在一起,同时将不同类别的项目有效地区分开来,从而在推荐时能够更精准地捕捉用户的兴趣点。进一步的可视化广告嵌入分布验证了COBRA的嵌入能力,通过随机抽取一万个广告,研究团队观察到了不同广告嵌入形成了明显的聚类中心,例如紫色、青色、浅绿色和深绿色聚类主要分别对应小说、游戏、法律服务和衣物广告。
由于与大量业务直接相关,推荐系统是一个竞争非常激烈的领域。在百度的研究中,工程师们将COBRA最终策略投放到真实生产环境上进行了测试,在A/B测试中实现了转化率增加3.6%,ARPU(平均每用户收入)增加4.15%的好成绩。这些业务指标的提升表明,COBRA不仅在离线评估中表现出色,还能够在实际生产环境中带来可衡量的商业价值,目前该方法在百度广告推荐业务中已经全量上线。
随着生成式AI技术的不断发展和完善,推荐系统也将迎来更加美好的未来。COBRA框架为生成式推荐领域提供了一个全新的范式,其创新的级联稀疏 - 稠密表征、交替学习的序列建模、端到端训练和由粗到细生成等技术,为推荐系统的发展注入了新的活力。在未来,生成式AI将更加深入地融入推荐系统,实现需求个性化的推荐。对于普通人来说,在各种App上,大模型驱动的推荐系统可以帮助我们获取更多有用的内容,让信息流更加聪明。对于科技公司而言,或许在几年之内,AI驱动的业务就可以从目前的局部智能化进化到“需求预测 - 生产调度 - 仓储物流 - 营销交付”的全流程智能化阶段。未来,AI应用的深度将决定业务的增长速度,而生成式AI无疑将成为推动业务增长的核心动力之一。
-END-

