在实验数据分析的场景中,经常会遇到分析同样的处理效果在不同的用户群体上是否存在显著差异的问题,此时我们可以利用实验异质性的分析方法,对实验结果进行精细化分析,辅助挖掘结果背后的业务逻辑,帮助业务迭代优化。
什么是异质性
实验分组 |
指标值 |
对照组 |
100 |
实验组 |
99.96 |
相对差异 |
-0.04% |
概念解析与定义
一般来讲,HTE的全称为Heterogeneous Treatment Effects,即异质处理效应,意为实验中同一个treatment对不同的实验样本,得到的策略效果可能是不一样的。另外还有一些重要的概念需要大家理解:
英文简称 |
英文全称 |
中文译名 |
含义 |
公式 |
ATE |
Average Treatment Effect |
平均处理效应 |
所有实验对象的平均实验效果 |
|
CATE |
Conditional Average Treatment Effect |
条件平均处理效应 |
满足一定条件的实验对象的平均实验效果 |
|
ITE |
Individual Treatment Effect |
个体处理效应 |
某个实验对象的实验效果 |
|
* 此处采用Donald Rubin提出的潜在因果框架(Potencial outcome)来对实验效果进行统计公式上的描述 [1]
异质性分析对于业务的意义
了解策略对于不同用户的不同效果,协助挖掘背后的业务逻辑,辅助迭代、进行新一轮的实验
尝试寻找策略最优子人群,让整体无效的策略,有机会进行部分先推全;反之依然,让部分负向的策略,减少损失
对实验结果建模后预测,对线上提供动态的最优人群支持
异质性分析的维度选择
-
T⊥X,即分析维度与实验分流无关 (Unconfoundedness)
-
分析工具化的常见简化方式:对于一个分流ID,选取他在首次进入实验前一天的标签取值
-
简单推导:
异质性分析的方法选择
实验平台数据科学团队已经产出python工具包,可以半自动化的利用6行代码实现平台上实验异质性的探索分析,可以实现以下功能
-
自动获取试金石实验分流信息 -
自动获取试金石实验指标信息 -
解析实验CATE研究使用的用户标签表 -
自动生成所有数据源的关联关系
-
自动化生成实验目标指标的CATE差异最大化子人群 -
提供调参接口,高级用户可自定义模型参数 -
提供可视化的模型结果输出,高级用户可根据输出调节模型表现
-
CATE人群的实验效果统计检验 -
CATE人群的多指标拆解 -
CATE人群的特征描述
某真实实验case的CATE结果分析,此项目整体实验指标为负向不显著,但通过运行分析工具后发现,有两类子人群分别具有正向和负向的显著效果。
对于这些子人群,我们发现他们的用户画像具备不同的特征,在业务漏斗的实验结果也不一致,那么下次对频道再次进行迭代时,产品经理可以有针对性的对负向人群的体验进行优化。
推荐阅读
告别 “盲买”!京东 AI 试穿 Oxygen Tryon:让服饰购物从“想象”到“所见即所得”




