超级汇川场景下的转化延迟解决方案- 大数跨境

首页

超级汇川场景下的转化延迟解决方案

武汉天行健网络

2023-02-22

导读：超级汇川技术交流

栏目 | 超级汇川技术汇

技术干货 | 技术交流

【超级汇川技术汇】是超级汇川广告平台推出的技术交流栏目，不定期向行业分享平台的技术思考和技术新进展，希望推动更多数字营销技术的行业交流，推动智能营销的发展

背景

在今天的互联网营销场景下，广告的投放模式变得越来越精细化，从之前的CPC 模式，逐步演进为oCPC，甚至oCPX等效果广告商业模式。从广告主的视角，不再是简单的获取广告展现和点击量，而是要更精准的投放到可能产生转化的用户，给客户带来实际的业务价值。因此转化率(Conversion Rate, CVR)预估在广告系统中扮演着非常重要的角色，对广告系统的排序以及各种出价机制等都起到决定性的作用，同时影响着广告主效果、用户体感以及平台效率的三方利益。

超级汇川广告平台持续在广告效果优化上进行产品迭代和算法升级，取得了不错的突破：

超级汇川着力于搭建支持多行业，多转化链路的统一广告平台，且转化目标可以支持非常深的后端转化。因此平台推出了全场景+全链路转化投放产品，实现了统一的转化率模型预估和出价方式表达，极大地提升了转化广告投放的接入效率。
转化数据的反馈天然存在一定的延迟，且在超级汇川多转化目标的场景下，不同转化类型的延迟率不同，通常越深的节点，转化延迟概率越大。我们构建了一套统一的延迟反馈解决方案，独辟蹊径地从数据反馈链路上进行延迟转化的补偿建模工作，取得了不错的业务效果。

本文重点介绍我们在转化延迟反馈优化上的建模工作，首先来直观地理解一下转化延迟发生的过程：

从一次用户广告浏览开始举例，用户可能对该广告感兴趣从而点击广告，在页面中下载APP；用户可能在若干小时后才进行APP的激活和注册，而付费行为则更可能发生在一天或多天之后。用户与广告媒体交互到后链路转化发生的时间差异，我们称之为转化延迟时间。转化延迟的分布跟用户行为习惯有关，也跟广告后端业务流程有关。一般地，转化行为链路越深，转化延迟越大，但是不同的行业、不同的广告业务实体其延迟率又存在差异，因此转化延迟的分布是一个非常复杂的数学模型。在考虑转化延迟的情况下，转化率预估模型的样本逻辑变得非常复杂：

1) 转化真负样本(集合A)：用户没有发生转化

2)转化假负样本(集合B)：用户发生了转化，但没有在模型训练前到达

3)转化正样本(集合C)：用户发生了转化，并在模型训练前到达

转化率模型期望学习的数据分布是 (B+C)/(A+B+C)，但是实际观测到的分布是C/(A+B+C)，因此基于观测数据学习到的转化率模型会存在明显的低估，直接影响广告获量和平台收益。

业界对于转化延迟问题的解决方案，主要包括两大类：

1) 窗口等待方案：根据延迟概率的分布，设置一个转化label的等待窗口，在窗口内到达转化则当做正样本，否则为负样本。等待窗口的设置一般要保证绝大部分的转化能到达，因此不同的转化类型窗口可能会不一样。

2) 延迟补偿方案：使用一个延迟率预测模型预估转化延迟概率（Delay Rate, DR），然后在CVR预估的任务中根据延迟概率进行样本权重调整，从而保证CVR模型学习的分布服从期望转化概率分布。

窗口等待方案会牺牲模型的时效性，特别是对延迟率大的深度转化类型，时效性损失更大；而且在超级汇川多转化类型统一建模场景下，需要对不同转化类型设置不同的等待窗口，会导致建模流程非常复杂。

延迟补偿方案，则是以样本的展现时间进行样本对齐，通常也需要设定一个窗口来计算延迟率，然后根据延迟率调整模型训练的正负样本权重。在这种窗口机制下，后续延迟到达的转化（假负样本）不能及时被模型学习到，从而影响模型的准确性。

从另外一个角度思考，在效果优化广告平台中，最重要的数据其实是转化数据，因此转化率模型设计的目标首先要保证所有转化数据都能及时地进入模型训练，且保证转化率分布服从期望分布。因此我们从转化样本的时间对齐角度重构了模型样本流和模型训练算法，提出基于转化时间对齐的延迟反馈解决方案，在“全场景、全链路、智能获客”的超级汇川场景下，统一解决了转化延迟反馈优化问题，并取得了不错的业务效果。

转化延迟问题分析

在超级汇川场景下，丰富的转化类型可为广告主提供多种层次的优化目标，不同层次的优化目标其延迟反馈的程度不同。通常转化行为越深层的优化目标，其转化延迟反馈的问题越严重，并且行为越稀疏，对转化率模型预估挑战越大。

如图1展示了用户在与平台交互以及后续发生转化全过程的时段划分。其中用户与平台交互时刻为T₀，用户发生转化时刻为T₁，转化率模型学习的观测时刻为T₂，广告平台最长归因时间为T₃。

图1.转化行为全时段划分图

综上当用户转化反馈延迟越严重，假负样本占比越大，模型观测时刻训练学习的转化率比真实的转化率越低，导致CVR模型预估值比真实值偏低，从而降低了广告主的获量和竞价能力，因此解决延迟反馈问题对于平台效率和广告主获量及效果优化都十分重要。

延迟反馈问题在越深层次的转化中延迟比率越严重，例如在游戏行业中的激活和付费两种优化目标中，付费相对激活是更深层次的转化行为，如表下所示，激活在当天到达90%，其中有10%转化延迟，付费在当天的转化65%，其中有35%转化延迟，可以看出转化行为越深层转化延迟率越高，对转化率模型预估的挑战越大。

表1.不同层次的转化到达情况

转化延迟反馈优化方案

业内对转化延迟反馈问题有很多研究，包括了FNW (Faker Negative Weight, FNW)、ES-DFM (Elapsed-Time Sampling Delay Feedback Model, ES-DFM)、DEFER (Delayed Feedback modeling With Real negative, DEFER)等，其中心思想都是基于完整的历史归因数据构建转化延迟概率预估模型，通过转化延迟概率预估修正观测数据的正负样本比例，从而使观测数据趋于真实数据分布。

FNW方案将所有数据作为负样本进行学习一次，对于后续发生转化的数据重新补回作为正样本学习，同时通过样本权重调整来补偿之前的学习误差；ES-DFM方案需要适当的等待窗口，对窗口外的延迟转化进行模型训练补偿；DEFER方案与ES-DFM类似也需要等待窗口，并对窗口外延迟转化进行预估，但在完整的归因周期后将所有样本以真实Label重新下发，以确保样本在特征空间上与真实分布保持一致。

我们的策略设计参考了ES-DFM的延迟补偿以及DEFER的样本重下发方式，结合超级汇川的全链路复杂转化场景，总体方案的设计目标如下：

“

转化反馈数据高效加入模型学习：

用户最新反馈的转化数据，表示了用户近期的兴趣趋势，因此对于最近回传的转化行为数据应该及时加入最新的模型中训练；以往普遍做法是将延迟反馈的转化进行样本回刷处理，将转化拼接至历史归因当天的训练数据中，后续模型回溯训练从而消除延迟偏差，但这种训练方式通常不够高效，且由于优化器算法的特点转化回刷到历史训练数据中对模型后续的影响相对较弱。因此我们从转化时间对齐的角度构建转化率模型的训练样本，尽可能地将平台回收到的转化都及时加入模型训练，从而使整体模型最新学习的数据分布趋于真实完整回传的转化数据分布。

“

对分布有偏样本进行延迟反馈修正：

对于当天的样本，由于延迟反馈的原因其训练数据的转化分布是偏低的，因此需要解决当天转化延迟的问题，防止造成模型低估。

“

构建统一延迟反馈修正框架，

支持全链路所有转化场景：

对于复杂的超级汇川场景，策略设计应对所有类型进行统一方案处理，并对于后续新增转化类型、业务场景都能自动适配。

图2.平台侧回收转化数据分布

超级汇川广告平台的模型数据每日构成如图2所示，正样本为平台当天回收到的所有转化数据，其中包括了当天归因的转化Pcur与历史归因的转化Phis；负样本为当天所有点击未转化的数据Ncur。结合上述策略设计目标以及业务特点，我们优化方案需要准确还原Pcur与Phis这两部分转化的真实数据分布。如图3所示，通过样本加权以及自适应采样使整体的训练数据分布趋于真实的数据分布，具体方案过程如下：

综上，将平台回收到的转化区分当天归因的转化与历史归因的转化，分别对当天转化进行加权已解决当天延迟反馈问题，对历史转化补充负样本以解决使整体数据分布趋于真实完整归因的数据分布，提高模型的预估能力。

实验效果

上述延迟优化策略通过线上AB-test实验验证，并完成了在超级汇川场景的全流量，如下表所示，策略带来大盘消耗+5%，GMV +11%的收益，尤其对延迟转化的部分，获量+31%，消耗+14%，GMV +34%，对于延迟部分的广告预估提升十分明显。

表2.延迟优化策略效果

未来展望

现阶段的延迟优化方案是对超级汇川整体的统一优化，针对某些转化稀疏、数据分布变化剧烈的场景需要差异化、精细化地对延迟转化进行补偿以及采样处理；后续也期望通过对广告主转化率趋势变化进行预估，用预估的变化趋势来指导系统加权、采样以及校准相关模块进行修正，提高整体模型的预估准确性和时效性。

【声明】内容源于网络

武汉天行健网络

武汉天行健网络工程有限公司成立于2008年，10年时间服务过20000+企业。自2016年以来在湖北与阿里智能信息事业群智能营销平台签约，帮助中小企业建立市场知名度，快速智能获客，快速营销起效！

内容 571

粉丝 0

武汉天行健网络武汉天行健网络工程有限公司成立于2008年，10年时间服务过20000+企业。自2016年以来在湖北与阿里智能信息事业群智能营销平台签约，帮助中小企业建立市场知名度，快速智能获客，快速营销起效！

总阅读289

粉丝0

内容571