【超级汇川技术汇】是超级汇川广告平台推出的技术交流栏目,不定期向行业分享平台的技术思考和技术新进展,希望推动更多数字营销技术的行业交流,推动智能营销的发展
背景
在今天的互联网营销场景下,广告的投放模式变得越来越精细化,从之前的CPC 模式,逐步演进为oCPC,甚至oCPX等效果广告商业模式。从广告主的视角,不再是简单的获取广告展现和点击量,而是要更精准的投放到可能产生转化的用户,给客户带来实际的业务价值。因此转化率(Conversion Rate, CVR)预估在广告系统中扮演着非常重要的角色,对广告系统的排序以及各种出价机制等都起到决定性的作用,同时影响着广告主效果、用户体感以及平台效率的三方利益。
超级汇川广告平台持续在广告效果优化上进行产品迭代和算法升级,取得了不错的突破:
超级汇川着力于搭建支持多行业,多转化链路的统一广告平台,且转化目标可以支持非常深的后端转化。因此平台推出了全场景+全链路转化投放产品,实现了统一的转化率模型预估和出价方式表达,极大地提升了转化广告投放的接入效率。
转化数据的反馈天然存在一定的延迟,且在超级汇川多转化目标的场景下,不同转化类型的延迟率不同,通常越深的节点,转化延迟概率越大。我们构建了一套统一的延迟反馈解决方案,独辟蹊径地从数据反馈链路上进行延迟转化的补偿建模工作,取得了不错的业务效果。
本文重点介绍我们在转化延迟反馈优化上的建模工作,首先来直观地理解一下转化延迟发生的过程:
从一次用户广告浏览开始举例,用户可能对该广告感兴趣从而点击广告,在页面中下载APP;用户可能在若干小时后才进行APP的激活和注册,而付费行为则更可能发生在一天或多天之后。用户与广告媒体交互到后链路转化发生的时间差异,我们称之为转化延迟时间。转化延迟的分布跟用户行为习惯有关,也跟广告后端业务流程有关。一般地,转化行为链路越深,转化延迟越大,但是不同的行业、不同的广告业务实体其延迟率又存在差异,因此转化延迟的分布是一个非常复杂的数学模型。在考虑转化延迟的情况下,转化率预估模型的样本逻辑变得非常复杂:
1) 转化真负样本(集合A):用户没有发生转化
2)转化假负样本(集合B):用户发生了转化,但没有在模型训练前到达
3)转化正样本(集合C):用户发生了转化,并在模型训练前到达
转化率模型期望学习的数据分布是 (B+C)/(A+B+C),但是实际观测到的分布是C/(A+B+C),因此基于观测数据学习到的转化率模型会存在明显的低估,直接影响广告获量和平台收益。
业界对于转化延迟问题的解决方案,主要包括两大类:
1) 窗口等待方案:根据延迟概率的分布,设置一个转化label的等待窗口,在窗口内到达转化则当做正样本,否则为负样本。等待窗口的设置一般要保证绝大部分的转化能到达,因此不同的转化类型窗口可能会不一样。
2) 延迟补偿方案:使用一个延迟率预测模型预估转化延迟概率(Delay Rate, DR),然后在CVR预估的任务中根据延迟概率进行样本权重调整,从而保证CVR模型学习的分布服从期望转化概率分布。
窗口等待方案会牺牲模型的时效性,特别是对延迟率大的深度转化类型,时效性损失更大;而且在超级汇川多转化类型统一建模场景下,需要对不同转化类型设置不同的等待窗口,会导致建模流程非常复杂。
延迟补偿方案,则是以样本的展现时间进行样本对齐,通常也需要设定一个窗口来计算延迟率,然后根据延迟率调整模型训练的正负样本权重。在这种窗口机制下,后续延迟到达的转化(假负样本)不能及时被模型学习到,从而影响模型的准确性。
从另外一个角度思考,在效果优化广告平台中,最重要的数据其实是转化数据,因此转化率模型设计的目标首先要保证所有转化数据都能及时地进入模型训练,且保证转化率分布服从期望分布。因此我们从转化样本的时间对齐角度重构了模型样本流和模型训练算法,提出基于转化时间对齐的延迟反馈解决方案,在“全场景、全链路、智能获客”的超级汇川场景下,统一解决了转化延迟反馈优化问题,并取得了不错的业务效果。
转化延迟问题分析

图1.转化行为全时段划分图
综上当用户转化反馈延迟越严重,假负样本占比越大,模型观测时刻训练学习的转化率比真实的转化率越低,导致CVR模型预估值比真实值偏低,从而降低了广告主的获量和竞价能力,因此解决延迟反馈问题对于平台效率和广告主获量及效果优化都十分重要。
延迟反馈问题在越深层次的转化中延迟比率越严重,例如在游戏行业中的激活和付费两种优化目标中,付费相对激活是更深层次的转化行为,如表下所示,激活在当天到达90%,其中有10%转化延迟,付费在当天的转化65%,其中有35%转化延迟,可以看出转化行为越深层转化延迟率越高,对转化率模型预估的挑战越大。
转化延迟反馈优化方案
“
转化反馈数据高效加入模型学习:
“
对分布有偏样本进行延迟反馈修正:
“
构建统一延迟反馈修正框架,
支持全链路所有转化场景:

图2.平台侧回收转化数据分布

实验效果

表2.延迟优化策略效果
未来展望


