大数跨境
0
0

如何用最通俗的话,讲清楚ABTest?

如何用最通俗的话,讲清楚ABTest? 数据分析不是个事儿
2020-03-05
2
导读:学不会你来打我!

让我们想象一下,在公司的某产品研发讨论会上……

“这个功能要不要上?
“我觉得没问题,XX指标肯定能涨一大截。
“我不这么想,XX指标说不定也会受到影响,你不能只想着可能的收益呀。
blahblah无限循环争吵中……
“好啦,别吵了,让我们开个AB看一下效果吧。
当现在越来越多的app都已经日活百万千万,新功能是绝对不敢、也绝无必要轻易上线的(因为一旦全量上线引起用户反感,损失不可估计
这个时候,AB实验就成为了大型功能上线前的必备利器——进行小流量的测试,利用测试的效果来预估上线后的效果
OK,那一个AB实验开启了之后,我们(常常是数据分析师)该怎么评估这个AB实验的效果,给出这个需求到底要不要上线的分析结论呢?这就是本文的重点所在了。

AB实验的那些事

一个合格的分析师,可以问自己以下几个问题:

  1. 我怎么衡量一个指标是否有显著变化?

  2. 当你看到指标显著时:是真的显著吗?

  3. 当你看到指标不显著时,是真的不显著吗?

  4. 一个合适的AB实验指标判断结论怎么给出?

接下来,让我们一起看看这些问题该怎么解答吧~

1、我怎么衡量一个指标是否有显著变化?

结论:利用p值进行判断,一般来说p值<0.05,认为指标有显著变化。
原因:假设检验的相关知识

嗯……AB实验就是一种假设检验吗?那假设检验是怎么一回事呢?
这里我举一个公开课里看到的例子,非常生动形象,看看我们在一个实际的Case中,怎么拒绝/接受一个假设的。

背景:神经学家测试一种药物对小老鼠反应时间的影响,给实验组100只小老鼠注释某种药物。神经学家知道,没有注射药物的老鼠平均反应时间是1.2s,注射了药物的老鼠平均反应时间1.05s,样本标准差0.5s。你认为这个药物对于老鼠的反应时间有影响吗?

依照我们上面说的步骤逐步拆解,我们用H0代表药物无影响,H1代表药物有影响:
我们先假设药物是没有影响的。
如果药物没有影响,换句话说,实验组的小鼠在注射药物之后,他们的反应时间均值应该是1.2s。

假设总体小鼠的反应均值就应该是1.2s,那么我们得到的这个样本——平均反应时间1.05s的概率是多大?

求解过程很简单,我们用样本的标准差估计总体的标准差即可,最终得到这个概率曲线是个正态分布曲线,概率只有0.3%!

所以,这个时候,虽然不是100%确定,但我们倾向于拒绝原假设,接受药物有影响这个假设

这就是AB实验,大体的思路是这样的:

  1. 当我有足够大的样本量,把用户分成两组:A组(对照组)和B组(实验组)
  2. AB实验是在对照组的基础上,做一个功能改动。假设这个功能改动是不影响指标的,是没有作用的。
  3. 观察B组的指标,经过统计学方法计算,在原假设成立的情况下,B组这种指标表现出现的概率。
  4. 根据这个概率去判断我们是该接受原假设、还是拒绝原假设。

在统计学上,我们把这个概率值称为P-value,也就是p值。(上节课我们讲回归分析的时候曾经用过)

在P值小于0.05的情况下,一般说明指标有显著变化,则需要推翻原假设。

2、当你看到指标显著时:是真的显著吗?

结论:不一定是真的显著。
原因:犯了第一类错误!(常说的alpha错误)

看到这,有的小伙伴可能有点迷茫。什么意思?

不是刚刚说p值远小于0.05,拒绝原假设了吗?怎么又不一定真的显著呢?

这里解释一下。我们刚刚说了,我们拒绝了H0,不是因为100%确定H0是错的,而是因为H0为真的概率太低了,所以我们选择拒绝了它。

但是不代表它一定就是错的,有可能药是确实没有作用,小概率事件不一定就是不会发生的。

你可能会想,完犊子了,那我们这还咋评估啊。

但是!

虽然我们不敢说100%数据就一定会像表现的那样涨,我们可以给出,“实际没涨,AB实验看起来涨了”的犯错概率。

这个过程,就是将“不确定性”进行“量化”的过程。

总而言之,我们不可能“准确”的预估产品feature上线后的表现,但是它能将“不可预知”的风险,转换为“可以量化”其“不确定性”的问题。

3、当你看到指标不显著时,是真的不显著吗?

结论:不一定真的不显著。

原因:犯了第二类错误!(常说的beta错误)

嗯嗯嗯又来了,看到不显著,也不一定是真的不显著……

那这又是为什么呢?我们会可能犯第二类错误:其实策略有效,只是没有被检测出来。
这种错误的概率被记为β,表示的是“假设我的新策略是有效的,我有多大概率在实验中检测出来”。

什么意思呢?让我们画图来看,右边这个红色曲线是实验组,左边这个蓝色曲线是对照组。大家可以知道的是,如果我实验组取的样本落在了图中蓝色涂满的这部分,其实是应该拒绝原假设的!

是由于它不在蓝色曲线的拒绝域里,所以我们接受了它,这就是第二类错误了。

4、一个合适的AB实验指标判断怎么给出?

这里有个简单的流程。

当我们判断一个指标是否显著时,先看P值。能得到显著与否的结论,但是要注意仍然有概率犯错。

当我们判断一个指标不显著、实验没效果时,要注意是否会存在流量不够的问题,造成了实际有效果,但没被检验出来的可能性。(不过一般来说,开始实验前最好就评估好样本量的问题)

结语

这篇文章对于统计学学得很好的同学来说可能看了不痛不痒,但是很多统计学得不是那么的明白的同学们,看这个应该还是很爽的
感谢我司AB实验平台写的文章,帮了我不少忙,有问题可以评论区友好交流,我们可以一起把这篇文章变得更完整、更准确。

本文转载自:知乎作者 无眠

原文地址:https://zhuanlan.zhihu.com/p/102287944
end.
经过一段时间的积累和整理,启方的数据分析课程终于马上就要推出了,欢迎大家继续发表评论建议,并转发到文章让更多人看见!

还没有添加我个人号的要抓紧了,到时候拉大家进群交流!

往期精彩:


最后,如果觉得文章有价值,右下角点“在看”并转发朋友圈,你们的支持是我更文的动力!

长按二维码关注我

【声明】内容源于网络
0
0
数据分析不是个事儿
分享数据人的干货!
内容 1307
粉丝 0
数据分析不是个事儿 分享数据人的干货!
总阅读59
粉丝0
内容1.3k