让我们想象一下,在公司的某产品研发讨论会上……
一个合格的分析师,可以问自己以下几个问题:
我怎么衡量一个指标是否有显著变化?
当你看到指标显著时:是真的显著吗?
当你看到指标不显著时,是真的不显著吗?
一个合适的AB实验指标判断结论怎么给出?
1、我怎么衡量一个指标是否有显著变化?
假设总体小鼠的反应均值就应该是1.2s,那么我们得到的这个样本——平均反应时间1.05s的概率是多大?
求解过程很简单,我们用样本的标准差估计总体的标准差即可,最终得到这个概率曲线是个正态分布曲线,概率只有0.3%!
所以,这个时候,虽然不是100%确定,但我们倾向于拒绝原假设,接受药物有影响这个假设

这就是AB实验,大体的思路是这样的:
-
当我有足够大的样本量,把用户分成两组:A组(对照组)和B组(实验组) -
AB实验是在对照组的基础上,做一个功能改动。假设这个功能改动是不影响指标的,是没有作用的。 -
观察B组的指标,经过统计学方法计算,在原假设成立的情况下,B组这种指标表现出现的概率。 -
根据这个概率去判断我们是该接受原假设、还是拒绝原假设。
在统计学上,我们把这个概率值称为P-value,也就是p值。(上节课我们讲回归分析的时候曾经用过)
在P值小于0.05的情况下,一般说明指标有显著变化,则需要推翻原假设。
2、当你看到指标显著时:是真的显著吗?
看到这,有的小伙伴可能有点迷茫。什么意思??
不是刚刚说p值远小于0.05,拒绝原假设了吗?怎么又不一定真的显著呢??
这里解释一下。我们刚刚说了,我们拒绝了H0,不是因为100%确定H0是错的,而是因为H0为真的概率太低了,所以我们选择拒绝了它。
但是不代表它一定就是错的,有可能药是确实没有作用,小概率事件不一定就是不会发生的。

你可能会想,完犊子了,那我们这还咋评估啊。
但是!!!!
虽然我们不敢说100%数据就一定会像表现的那样涨,我们可以给出,“实际没涨,AB实验看起来涨了”的犯错概率。
这个过程,就是将“不确定性”进行“量化”的过程。
3、当你看到指标不显著时,是真的不显著吗?
嗯嗯嗯又来了,看到不显著,也不一定是真的不显著……
什么意思呢?让我们画图来看,右边这个红色曲线是实验组,左边这个蓝色曲线是对照组。大家可以知道的是,如果我实验组取的样本落在了图中蓝色涂满的这部分,其实是应该拒绝原假设的!!
但是由于它不在蓝色曲线的拒绝域里,所以我们接受了它,这就是第二类错误了。

4、一个合适的AB实验指标判断怎么给出?
这里有个简单的流程。

当我们判断一个指标不显著、实验没效果时,要注意是否会存在流量不够的问题,造成了实际有效果,但没被检验出来的可能性。(不过一般来说,开始实验前最好就评估好样本量的问题)
结语
本文转载自:知乎作者 无眠
原文地址:https://zhuanlan.zhihu.com/p/102287944
还没有添加我个人号的要抓紧了,到时候拉大家进群交流!
往期精彩:



长按二维码关注我

