大数跨境
0
0

统计学陷阱——辛普森悖论(Simpson's Paradox)

统计学陷阱——辛普森悖论(Simpson's Paradox) 数据分析实战
2018-09-17
0
导读:辛普森悖论告诉我们,分组之间的数据,不能简单的直接相加。而是需要斟酌各分组的权重,并乘以一定的系数,以消除分组数据基数差异而造成的影响。

如果你在数据科学领域还只是个新手,那么建议你先看看《五本书带你入门数据科学》,入门之后,再看《R语言案例实战》系列。


这个系列的文章还包括:


统计学陷阱——安斯库姆四重奏(Anscombe’s quartet)


辛普森悖论


当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。


该现象于20世纪初就有人讨论,但一直到1951年,E.H.辛普森在他发表的论文中阐述此一现象后,该现象才算正式被描述解释。后来就以他的名字命名此悖论,即辛普森悖论。


辛普森悖论案例


一所美国高校的两个学院,分别是法学院和商学院。新学期招生,人们怀疑这两个学院有性别歧视。现作如下统计:


法学院:



商学院:



根据上面两个表格来看,女生在两个学院都被优先录取,即女生的录取比率较高。现在将两学院的数据汇总:



在总评中,女生的录取比率反而比男生低。


辛普森悖论原因分析


辛普森悖论出现的原因,可以使用下面这幅图来进行解答。



在上面这个图形中,X 轴代表申请的总人数,Y 轴代表录取的人数,那么 Y/X,也就是直线的斜率,和录取率正相关。


(a1, a2) 代表法学院的男生,(A1, A2) 代表法学院的女生。可以看到,法学院女生的斜率比法学院男生的斜率要高,代表法学院女生的录取率比法学院的男生的录取率要大。


同理,(b1, b2) 代表商学院的男生,(B1, B2) 代表商学院的女生。可以看到,商学院女生的斜率比商学院男生的斜率要高,代表商学院女生的录取率比商学院的男生的录取率要大。


尽管如此,来看总体直线的斜率,总体男生的斜率 (A1+B1, A2+B2) 的斜率,比总体女生的斜率 (a1+b1, a2+b2) 的斜率,还要大。


这个就是辛普森悖论的图形化解释,非常直观清晰。


如何避免辛普森悖论


为了避免辛普森悖论的出现,就需要斟酌各分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。同时,我们必需清楚了解情况,以综合考虑是否存在造成此悖论的潜在因素。


推荐阅读


新手入门推荐:


五本书带你入门数据科学

免费阅读付费电子书的方法

不会爬虫也可轻松使用的大数据!

不会爬虫也可轻松使用的大数据!续!


R数据分析实战


R语言案例实战——用户流失预测

R语言案例实战——A/B测试效果检验

R语言案例实战——用户流失原因分析

R语言案例实战——寻找KPI用户特征

R语言案例实战——游戏收入减少原因分析

R语言案例实战——广告投放的渠道效果评估


马尔科夫实战


异地女神发朋友圈,秒算天气嘘寒问暖

女神妥妥已追到手,股票分析养家糊口


蒙特卡罗实战


计算圆周率π

计算定积分

厕所排队问题

司机越浪,公路越堵?

【声明】内容源于网络
0
0
数据分析实战
数据科学实战型原创文章分享,包括但不限制于R、Python、Spark、MySQL等在数据分析、数据挖掘、数据抓取、数据可视化 的精品分享,个人官网:www.datastudy.cc
内容 84
粉丝 0
数据分析实战 数据科学实战型原创文章分享,包括但不限制于R、Python、Spark、MySQL等在数据分析、数据挖掘、数据抓取、数据可视化 的精品分享,个人官网:www.datastudy.cc
总阅读21
粉丝0
内容84