
A/B实验具有一定前瞻性、统计性、科学性的特性。用好了就实现了在大数据时代的充分利用数据分析问题,解决问题,为决策提供强有力的依据,但是有时候用户在使用A/B实验时候,会出现一些痛点和疑惑。本文将具体分析A/B测试中易出现的痛点问题及解决方案。

文 | 松宝写代码 来自字节跳动数据平台DataTester团队
前言
痛点
-
每次实验需要多少流量
-
实验时间开多长没有概念
解决问题
-
为了验证某一个功能特性,一个实验需要开多少流量。
-
一个实验需要开多长时间
统计基础概念
研究对象
入手点
统计量(工具)

抽样分布
这里不做详细的叙述,后续推导中需要使用到以上概念,具体可以参考网上介绍。
标准正态分布N(0, 1)
Ka方分布
t-分布
F-分布
抽样定理


参数估计
-
样本均值估计总体均值,
用样本比例去估计总体比例,
用样本方差估计总体方差
(1)分类:点估计和区间估计
点估计通俗的说:用样本的统计量的值直接作为总体参数的估计值。
区间估计通俗的说:在点估计的基础上,给出总体参数估计的一个区间范围。
(2)置信区间和置信水平
通俗的说:区间估计中,样本统计量构造的总体参数的估计区间,称为置信区间。
举个例子:
100个样本,每一个样本构造一个置信区间,100个样本构造的总体参数的100个置信区间中,有95%的区间包含了总体参数的真值,5%则没有包含。
大样本下,样本均值的置信区间:

(3)总体均值的区间估计原理
大样本下,根据中心极限定理,可以得到的样本均值的抽样分布。

假设检验



一个简单并完整的A/B实验例子
背景和设置
-
背景:有个web应用,接入火山引擎的AB测试客户端sdk,上报各种事件埋点。
-
确认优化的目标:注册流程改版,从而提供注册转换率。
-
注册流程的A/B测试:之前是使用了图片校验码的方式,但是注册转化率偏低。提出设想:图片校验码方式改成短信校验码方式,是因为降低了用户输入的难度从而可以提高注册转换率。
-
我们设置 -
核心指标:注册转化率 -
设置版本:1个对照版本(图片校验码)。1个实验版本(短信验证码)。 -
设置版本流量:总流量我们设置50%,各个版本均匀分配。
-
web应用引入我们客户端分流sdk的,然后将版本代码插入到项目中。
结果分析
详细介绍样本量计算
注册流程改版例子
-
1天后数据统计
-
2天后数据统计
-
理论上:样本量越多越好。 -
现实上:1、自身样本不够大;2、试错成本大。
最小样本公式
方法一:假设两个转化率方差相等
【注册流程改版例子】具体计算过程:
两个版本权重相等的情况
两个版本的注册转换率权重不等的情况
小结
方法二:使用假设性检验
适用范围
假设性检验本身可以对单个总体参数或者两个总体参数进行。
假设的内容可以是双侧检验。比如参数是否等于某个值,还可以参数是否大于或者小于某个值。
具体检测和推算
构造统计量
计算原理
-
power 即 蓝色曲线在红色(右)箭头右侧的面积,即显著实验的概率。
-
delta是上图 蓝色的中轴位置,即 AB实验(以指标提升为例)的均值差的期望。
具体推算
根据上面的概率密度曲线和power定义利用标准正态分布的分布函数可以计算power,包含了delta,指标方差,样本量 ;然后根据power公式反推每个版本的样本量。
-
σ 是标准差
-
Φ是标准正态分布下某个X值对应的概率面积
-
α是一类错误概率,叫它alpha
-
β是二类错误概率,1-β是统计功效,叫它beta
-
样本量 (n):其他条件保持不变,样本量越大,功效就越大。
-
显著性水平 (α):其他条件保持不变,显著性水平越低,功效就越小。
-
两总体之间的差异:其他条件保持不变,总体参数的真实值和估计值之间的差异越大,功效就越大。也可以说,效应量(effect size)越大,功效就越大。
-
cdf 累积分布函数,是概率密度函数的积分,能完整描述一个实随机变量X的概率分布。
-
ppf 分位点函数
-
sample_per_version 样本每个版本样本量
-
metric_variance 指标方差
-
delta 均值的差
-
ppf 分位点函数
-
norm.ppf正态分布的累计分布函数的逆函数,即下分位点。
-
alpha 默认5%,其中norm.ppf(1 - α / 2) = 1.96,norm.ppf(β)为映射值。
-
metric_variance 指标方差。
-
delta 均值的差。
最后
产品介绍
火山引擎 A/B 测试,限时免费,立即申请!
A/B 测试,摆脱猜测,用科学的实验衡量决策收益,打造更好的产品,让业务的每一步都通往增长。火山引擎首度发布增长助推「火种计划」,火山引擎 A/B 测试作为「火种计划」产品之一,将为您免费提供 2 亿事件量和 5 万 MAU,以及高达 12 个月的使用权。后台回复数字“8”了解产品
点击阅读原文,立即跳转火山引擎A/B测试DataTester官网了解详情


