分层抽样是一种将总体按特征划分为层,再从各层独立抽样的概率抽样方法,其核心优势是降低抽样误差、提升样本代表性,但实际操作中容易出现以下常见错误:
分层的核心是让层内差异小、层间差异大,若分层变量与研究目标无关,会直接导致抽样失去意义。
研究居民收入水平时,按 “身高” 分层,而非 “职业”“学历”“地区” 等与收入强相关的变量。
分层后的样本无法精准反映总体的收入分布特征,抽样误差甚至高于简单随机抽样。
层的数量或范围界定失误,会破坏分层抽样的有效性,常见问题包括:
分层过细会增加抽样成本和操作难度,甚至出现某些层样本量为 0 的情况;分层过粗则无法体现层间差异,等同于简单随机抽样。
分层要求总体中的每个个体仅属于一个层,若划分标准模糊,会导致个体被重复划入多个层。示例:按 “青年(18-30 岁)” 和 “职场新人(工作 1-3 年)” 分层,部分 18-30 岁的职场新人会被重复归类。
分层抽样的样本量分配有比例分配和最优分配两种核心方法,错误的分配方式会影响估计精度:
比例分配是按各层在总体中的占比抽取样本,适用于各层内部方差相近的情况;若某层方差远大于其他层,仍按比例分配会导致该层样本量不足,估计误差增大。
最优分配的原则是 “方差大的层多抽、抽样成本低的层多抽”,若仅考虑占比而忽略方差或成本,会失去最优分配的优势。
为了方便或主观偏好随意增加 / 减少某层样本量,比如为了数据好统计,刻意多抽城市样本、少抽农村样本,导致样本代表性偏差。
分层抽样要求各层内部采用随机抽样(如简单随机抽样、系统抽样),常见错误包括:
比如在各层中主观选择 “典型样本”,而非随机抽取,这会让分层抽样退化为非概率抽样,样本无法推断总体。
例如某层个体分布高度集中,却使用系统抽样,容易因抽样间隔与个体分布周期重合导致偏差。
实施分层抽样的前提是已知总体的分层框架(即总体中各层的规模、特征等信息),若缺少这些信息仍强行分层:
研究某地区企业盈利能力,却不清楚该地区不同行业的企业数量,只能凭主观划分层,导致各层占比与实际不符。
基于错误分层框架计算的估计量会产生系统性偏差,无法准确推断总体参数。
分层抽样的抽样误差公式与简单随机抽样不同,其误差仅与层内方差有关,与层间方差无关。
直接套用简单随机抽样的误差公式计算分层抽样的误差,会导致误差估计偏大或偏小,影响结果的可靠性判断。