我们可以看到黄金三角的推理逻辑关系链,有了样本到总体分布的关系([[参数估计]]),有了总体到抽样分布的推理([[抽样分布]]),从箭头明显看得到,我们似乎可以在抽样分布中讨论假设检验了,也就是讨论我们这个做实验的唯一样本与抽样分布之间的关系了。话说回来我们还缺少能够量化的工具(P值),毕竟抽样分布只能告诉我们平均值和方差,并没有告诉抽样分布的形状([[概率分布]]),有了中心极限定理的加持所有假设检验的铺垫都已就绪,我们的逻辑链条([[黄金三角]])终于能够闭环了。
现在我们已经掌握了总体、样本、抽样分布以及它们各自的参数和统计量这些核心概念。是时候将它们串联起来,构建我们理解A/B测试乃至整个统计推断的核心框架了。而这一切的“粘合剂”,就是统计学中最强大、最神奇的定理之一——**中心极限定理 (Central Limit Theorem, CLT)**。
中心极限定理:化繁为简的“魔法”
我们知道了,想要了解总体的真实参数(如 或 ),我们只能通过样本统计量(如 或 )来估计。我们也知道了,样本统计量本身是随机的,其随机性由抽样分布描述。
但这个抽样分布到底长什么样呢?它的形状、中心、离散程度如何?这对于我们评估估计的可靠性、判断差异的显著性至关重要。
这时,中心极限定理(CLT)闪亮登场,它带来了一个极其惊人且极为有用的结论:
中心极限定理的核心思想(通俗版):
无论原始总体的数据分布是什么样子(无论是正态分布、偏态分布、二项分布,甚至是奇形怪状的分布),只要你抽取的样本量 足够大(通常 是一个经验法则,对于比例而言需要 且 ),那么:
样本均值 的抽样分布 会近似地服从正态分布! 样本比例 的抽样分布 也会近似地服从正态分布!

