大数跨境
0
0

分层抽样有哪些常见错误?

分层抽样有哪些常见错误? 汉斯出版社
2025-12-09
4
导读:关注汉斯出版社公众号联系小编即可投稿,还可获取最新论文模板!

分层抽样是一种将总体按特征划分为层,再从各层独立抽样的概率抽样方法,其核心优势是降低抽样误差、提升样本代表性,但实际操作中容易出现以下常见错误:

01

分层依据选择不当

分层的核心是让层内差异小、层间差异大,若分层变量与研究目标无关,会直接导致抽样失去意义。



错误示例

研究居民收入水平时,按 “身高” 分层,而非 “职业”“学历”“地区” 等与收入强相关的变量。



后果

分层后的样本无法精准反映总体的收入分布特征,抽样误差甚至高于简单随机抽样。

02

层的划分不合理

层的数量或范围界定失误,会破坏分层抽样的有效性,常见问题包括:



分层过细或过粗

分层过细会增加抽样成本和操作难度,甚至出现某些层样本量为 0 的情况;分层过粗则无法体现层间差异,等同于简单随机抽样。



层与层之间存在重叠

分层要求总体中的每个个体仅属于一个层,若划分标准模糊,会导致个体被重复划入多个层。示例:按 “青年(18-30 岁)” 和 “职场新人(工作 1-3 年)” 分层,部分 18-30 岁的职场新人会被重复归类。

03

各层样本量分配错误

分层抽样的样本量分配有比例分配和最优分配两种核心方法,错误的分配方式会影响估计精度:



忽视比例分配的前提

比例分配是按各层在总体中的占比抽取样本,适用于各层内部方差相近的情况;若某层方差远大于其他层,仍按比例分配会导致该层样本量不足,估计误差增大。



最优分配时忽略层内方差或抽样成本

最优分配的原则是 “方差大的层多抽、抽样成本低的层多抽”,若仅考虑占比而忽略方差或成本,会失去最优分配的优势。



人为调整样本量

为了方便或主观偏好随意增加 / 减少某层样本量,比如为了数据好统计,刻意多抽城市样本、少抽农村样本,导致样本代表性偏差。

04

层内抽样方法误用

分层抽样要求各层内部采用随机抽样(如简单随机抽样、系统抽样),常见错误包括:



层内使用非随机抽样

比如在各层中主观选择 “典型样本”,而非随机抽取,这会让分层抽样退化为非概率抽样,样本无法推断总体。



层内抽样方法与层特征不匹配

例如某层个体分布高度集中,却使用系统抽样,容易因抽样间隔与个体分布周期重合导致偏差。

05

忽视总体分层信息的缺失

实施分层抽样的前提是已知总体的分层框架(即总体中各层的规模、特征等信息),若缺少这些信息仍强行分层:



错误示例

研究某地区企业盈利能力,却不清楚该地区不同行业的企业数量,只能凭主观划分层,导致各层占比与实际不符。



后果

基于错误分层框架计算的估计量会产生系统性偏差,无法准确推断总体参数。

06

抽样误差计算错误

分层抽样的抽样误差公式与简单随机抽样不同,其误差仅与层内方差有关,与层间方差无关。



错误

直接套用简单随机抽样的误差公式计算分层抽样的误差,会导致误差估计偏大或偏小,影响结果的可靠性判断。



【声明】内容源于网络
0
0
汉斯出版社
汉斯出版社(Hans Publishers)是一家国际综合性出版机构,聚焦于国际开源 (Open Access) 中文期刊全球的出版发行。
内容 2466
粉丝 0
汉斯出版社 汉斯出版社(Hans Publishers)是一家国际综合性出版机构,聚焦于国际开源 (Open Access) 中文期刊全球的出版发行。
总阅读1.4k
粉丝0
内容2.5k