大数跨境
0
0

数学漫谈-重谈回归的起源

数学漫谈-重谈回归的起源 简博士数据分析吧
2022-03-26
1
导读:一场对表哥所提进化论的质疑,带来了一个风靡至今的统计模型--简单好用的线性回归!



内容提要:

* 18世纪数学家的故事

* 从三分律引出的思考

* 如何解读回归现象

点击蓝字 |关注我们

欢迎回来。在之前的讲义中【十分钟 机器学习 系列课程】 讲义(三十一):Logistic逻辑回归模型,我们讲了若干次的回归起源,也就是由父与子的身高关系,高尔顿提出「回归」一词。

父与子的身高

有小伙伴提出疑问:

为什么要研究父与子的身高,母亲和女儿呢?难道那时候的科学研究有性别歧视?

今天我们就来一场统计学的考古,重谈回归的起源。

壹 18世纪数学家的故事

在开始之前,我们先聊聊18世纪时的数学往事。

的确,历史上的科学家大多是男性,而在18世纪那个时候,社会上普遍存在对女性科学家的成见。

比如,「艾米莉·布瑞杜尔」,曾出生在法国上流社会,接受了全方位的科学与文学的教育。12岁的时候已经精通意大利语、希腊语、德语。后来又与伏尔泰谈起了恋爱,翻译了牛顿的多本巨著。然而,或许出于嫉妒,艾米莉被法国上流社会中不懂科学的女性奚落、丑化,被描述为丑陋、粗鲁的女人,最后死于难产。

于是,很多女数学家不敢暴露真身。比如,「玛丽苏菲•热尔曼(Marie-Sophie Germain)」就曾假冒男性,与一些著名的科学家高斯、拉格朗日等通信。

玛丽苏菲•热尔曼 法国数学家

热尔曼出身巴黎一个殷实的商人家庭,她从小热爱数学,但不为家庭所鼓励。身为女性,她被拒于巴黎综合工科学校大门之外,顾虑到当时普遍存在的对女性科学家的成见,她常常不得不以假名和其他数学家(比如拉格朗日和高斯等)通信。热尔曼的求学故事折射出了当时女性求学的困难和自卑。通过不懈的努力,她在声学、弹性的数学理论和数论等方面都取得了出色的成果。

在1816年1月,热尔曼因提出的“弹性表面理论”的优秀论文第一次挑战了拉普拉斯学派而声名大噪。

不过,提出回归的高尔顿在做实验时并没带有任何性别歧视。只不过在回归起源的口口相传中,以讹传讹,最后就演变为父与子的身高分析了。

弗朗西斯·高尔顿(Francis Galton,1822-1911),英国科学家和探险家

为了调查此事,小简特意找出了高尔顿提出回归的那篇论文。

高尔顿1886年的论文

在文中,高尔顿的实验对象既包括父亲和母亲,也包括儿子和女儿。不过要说为何高尔顿萌生了做这项研究的想法,还要从他的「表哥达尔文」说起。

查尔斯·罗伯特·达尔文(Charles Robert Darwin,1809—1882),英国生物学家,进化论的奠基人。19 世纪出现一位推动生物学发展的伟大科学家,他在观察大量的动植物和地质结构之后,出版了《物种起源》一书,并提出生物进化论学说。这是一位坚信真实测量和三分律的科学家。

我不相信任何缺乏“真实测量和三分律”的事情。——查尔斯·达尔文

的确,在我们生存的世界上,真实测量就是分析问题的原材料,那么,三分律是什么呢?

贰 从三分律引出的思考

1.三分律的定义

在那个时代,「三分律」在科学界是无人不知,因为它出现于科学家的启蒙课本——古希腊数学家「欧几里得的《几何原本》」,这本书也在素数那一篇推文中出镜过数学漫谈-素数之恋

欧几里得的《几何原本》

三分律指的就是:假如 ,那么 中的任意三个都足以决定第四个。

但是,当遇到存在「变化」「测量误差」的时候,三分律就会给出错误答案。

2.三分律的误差

那么这个错误是什么含义呢?

咱们举个测量白杨树的例子看一看。

白杨树

这是虽在北方的风雪的压迫下却保持着倔强挺立的一种树!哪怕只有碗来粗细罢,它却努力向上发展,高到丈许,二丈,参天耸立,不折不挠,对抗着西北风。------茅盾《白杨礼赞》

如果我们想测出白杨树的高度,怎么办?

白杨树高度的计算测量

如果此时你恰好带着一把卷尺,并且已知身高 ,不妨这样尝试一下:标记白杨树的位置 ,以及白杨树影子顶点的位置 ,然后在白杨树的影子里找一个位置 站直,使得你头顶的影子恰好落在 点,最后测量 的距离 的距离 。于是,

利用「三分律」可以计算出

假如你旁边的朋友也想凑个热闹,站在 处,测量 的距离 ,也能得到白杨树的高度

但是,令人感到糟糕的是,这两个结果竟然不相等,于是你拉来一个过路人测量,发现竟然又出现第三个结果。导致这一现象的原因「就是真实测量所带来的误差」

这时有人提议,用平均值可以避免误差,于是你做了更多的测量,取 20 个人身高的平均值 ,以及影长的平均值 ,计算出

这里的 就是你第一天测量出的白杨树的影长, 是第一天推测出的白杨树的高度,终于测出正确的结果啦,哈哈,接着你放心地睡了一觉。

第二天又来到同一棵白杨树下进行测量,想要验证前一天的结果。可没想到,采用平均值的方法,第二天估计出的高度 与第一天不同,你可能觉得很崩溃,怎会如此?

3.高尔顿的探索

其实不用焦虑,当年英国著名科学家「弗朗西斯·高尔顿」,也遇到了类似的问题,不过他用来做实验的是考古学家发现的人类遗骸,用大腿骨的长度来推算身高。高尔顿发现,「他表哥信奉的三分律」,在这里完全不适用,于是对此做了更多的研究。

广为人所知的就是高尔顿研究的关于「父母与子女身高」的研究,这项研究极大地推动了人类遗传学的发展。

1885年,高尔顿以保密和给予金钱酬劳许诺,通过向社会征求的方式,获得了205对夫妇以及他们的928个成年子女身高。因为女子身高一般来说是低于男子的,所以高尔顿通过将女子身高乘以1.08来折算成男子身高。

这里的「1.08」也不是凭空猜的,而是高尔顿计算出来的「男女平均身高之比」

另外,统计学家皮尔逊曾经指出,男女身高的变异系数大致相同,所以高尔顿的做法还算是合理的。

接着,为考虑父母双方对子女身高的影响,高尔顿「将父亲身高与折算之后的母亲身高的平均值作为“中亲(Mid-parent)”身高」,也就是「亲代变量」

子女中男性身高不做处理,女性的身高也都乘以 1.08 进行折算,这里得到的就是「子代变量」

然后,高尔顿将“中亲”身高分为 10 组,统计每个组中子女身高的情况。

类似于计算「白杨树高度」的时候采用的平均值,高尔顿为了消除每组误差的影响,取每组子女身高的中位数,如图中最右一列显示。小简也找到了当年高尔顿采集到的数据集,感兴趣的小伙伴可以在后台回复“回归”获取。

为了研究遗传的关系,小简做了一张补充图,采用前九组数据的「最左一列的“中亲”身高」「最右一列子女身高」绘制散点图。

可见,子女与中亲身高近似线性关系,即父母身高较高的时候,子女的身高就相对高一些;当父母的身高较矮的时候,子女的身高也会相对矮一些。另外,高尔顿通过计算得到,「子女的身高约为中亲身高的 倍」,他专门这九组数据绘制为线图。

高尔顿注意到,「子女身高(线 )比“中亲”身高(线 )更接近于平庸的中间身高(线 )」。也就是说,并不是高个子的父母生育的子女会更高,矮个子的父母生育的子女会更矮。如果这样的话,人类的身高就分化出高矮两个极端了。

一般的情况是,存在更多的只有普通身高的父母但可以生育出超常身高的子女。后来,高尔顿又陆续用苹果、豌豆等做类似的实验,都出现类似于身高的现象,他称这种现象为“「回归」”现象。

叁 如何解读回归现象

1.回归的含义

我们发现,在高尔顿的实验中,用的都是「中位数」,而「不是算术平均数」。因为在高尔顿看来,中位数避开了极端值的影响。但是,对于高尔顿所研究的身高数据,豌豆大小数据,苹果尺寸数据等等,都是遵循「高斯分布规律」的。

不过,对于高斯分布而言,「中位数、平均数以及众数」,是三位一体的。

高斯分布的“三位一体”

后来,英国统计学家「埃奇沃思」就舍中位数而改用算术平均数,也就是现如今的「均值回归模型」

弗朗西斯·伊西德罗·埃奇沃思(Francis Ysidro Edgeworth,1845-1926),是英国统计学家,数理统计学的先驱

如果用一个模型来描述高尔顿所研究的父母与子女的身高关系,可以得到最简单的线性回归模型—— 「一元线性回归」

其中, 就是“中亲”身高,称为「自变量(或解释变量)」 为子女身高,称为「因变量(或响应变量)」 「误差项」。模型中的回归系数为 「截距项」


之所以回归模型在线性函数的基础上添加了一个「误差项」,就是因为测量或者观测误差。换而言之,高尔顿的研究发现,子女身高不只是受父母身高的影响,还有其他因素,比如环境等,这导致了亲代与后代之间出现不完美相关的结果,即所有的观测结果不完全在同一条直线上。

若自变量是 维的,则可以推广至「多元线性回归模型」

其中, 维自变量, 为因变量, 为误差项。模型中的回归系数为 ,截距项为

假设误差项 的期望 ,模型可以表示为期望回归方程的形式,

这就是我们之前数学思维奇妙夜-直播回顾介绍的「CAMP 模型」「Fama-French 三因子模型」所具有的模型结构。

2.回归的谬误

回归模型一经提出,迅速成为风靡至今的模型!

几乎所有的科学观察都着了魔似的向平均值回归——《女士品茶》

不过,由于大部分回归模型使用者只知其表,不知其意。因此,由回归引发的一系列错误判断却屡见不鲜。比如,1933年的时候,美国西北大学的经济学家「贺拉斯·赛奎斯特(Horace Secrist)」 在著作《平庸商业中的伟大胜利》中提到这样一个案例,如果根据 1920 年的数据在按照利润率从高到低排序的百货公司排行榜中,选出 Top 25  来,那么这些公司的业绩会在 1930 年的时候趋于平庸。

他表明,「可以根据这类逐渐趋于平庸的结论做出商业决策」。可实际上,贺拉斯并未察觉到,如果根据 1930 年的数据选择 Top 25 的百货公司,这些公司的业绩在 1920-1930 期间会逐渐地远离平庸。如果仍然根据他坚信的平庸法则做商业决策,可能会导致大量的亏损。

为什么会出现这些现象呢?

这是因为研究对象的不同导致的。而且,「许多复杂的商业现象不只是与单一的」,或者某些特定的众多因素有关系,还存在许多我们已知却尚未纳入模型中或者根本未察觉到的因素。

再或者,即使我们将所有的因素都纳入线性回归模型中,也有可能因为「特征变量之间存在高度共线性」而做出错误决策。这时候,就发展出逐「步回归、岭回归」等统计模型。

另外,在统计模型中,为确保模型中理论的成立,通常有许多假设条件,一旦实际数据与假设条件相差太大,也会导致判断出错。

比如,如果一个公司假设盈利与产品原材料存在线性关系,为了获得更多的收益,会提前购买大量的原材料并雇用更多的员工,可是市场销售额是有限度的,如果盲目的采用线性回归模型,只会造成大量原材料的囤积。

还有,如果一个公司因为偿付能力的原因而储备资本,并且他们假设各种风险因素之间存在线性关系,那么这可能导致公司持有的资本太少或太多。但由于错误地采用线性模型,压力测试并不会真正反映出这些公司的风险。

英国统计学家 George E. P. Box:

All models are wrong, but some are useful. Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.

所有模型都是错的,但其中有些是有用的。记住,所有模型都是错误的;关键的问题是模型错到什么程度就没有用处了。

所以,任何一个模型使用时都要慎重,只要能在有效地范围内发挥作用即可!

好啦,这就是本期的周末大放送,喜欢这篇文章的小伙伴记得「点赞+在看+转发」哦~谢谢大家,疫情当下,希望大家都平安喜乐~


拓展阅读

数学漫谈-贝叶斯的起源

数学漫谈-贝特朗奇论

欢迎大家关注简博士的B站和公众号,在公众号私信“入群”,可以与小伙伴们一起讨论问题哦。

【声明】内容源于网络
0
0
简博士数据分析吧
信息时代最不缺的是什么?数据!最缺的是什么?数据分析的思维!在这里,你将获取神秘的力量,推开数据之门!
内容 181
粉丝 0
简博士数据分析吧 信息时代最不缺的是什么?数据!最缺的是什么?数据分析的思维!在这里,你将获取神秘的力量,推开数据之门!
总阅读66
粉丝0
内容181