

数学漫谈-重谈回归的起源

简博士数据分析吧

2022-03-26

导读：一场对表哥所提进化论的质疑，带来了一个风靡至今的统计模型--简单好用的线性回归！

＊

内容提要：

＊ 18世纪数学家的故事

＊从三分律引出的思考

＊如何解读回归现象

点击蓝字｜关注我们

欢迎回来。在之前的讲义中【十分钟机器学习系列课程】讲义（三十一）：Logistic逻辑回归模型，我们讲了若干次的回归起源，也就是由父与子的身高关系，高尔顿提出「回归」一词。

有小伙伴提出疑问：

❝
为什么要研究父与子的身高，母亲和女儿呢？难道那时候的科学研究有性别歧视？
❞

今天我们就来一场统计学的考古，重谈回归的起源。

壹 18世纪数学家的故事

在开始之前，我们先聊聊18世纪时的数学往事。

的确，历史上的科学家大多是男性，而在18世纪那个时候，社会上普遍存在对女性科学家的成见。

比如，「艾米莉·布瑞杜尔」，曾出生在法国上流社会，接受了全方位的科学与文学的教育。12岁的时候已经精通意大利语、希腊语、德语。后来又与伏尔泰谈起了恋爱，翻译了牛顿的多本巨著。然而，或许出于嫉妒，艾米莉被法国上流社会中不懂科学的女性奚落、丑化，被描述为丑陋、粗鲁的女人，最后死于难产。

于是，很多女数学家不敢暴露真身。比如，「玛丽苏菲•热尔曼（Marie-Sophie Germain）」就曾假冒男性，与一些著名的科学家高斯、拉格朗日等通信。

❝
热尔曼出身巴黎一个殷实的商人家庭，她从小热爱数学，但不为家庭所鼓励。身为女性，她被拒于巴黎综合工科学校大门之外，顾虑到当时普遍存在的对女性科学家的成见，她常常不得不以假名和其他数学家（比如拉格朗日和高斯等）通信。热尔曼的求学故事折射出了当时女性求学的困难和自卑。通过不懈的努力，她在声学、弹性的数学理论和数论等方面都取得了出色的成果。

在1816年1月，热尔曼因提出的“弹性表面理论”的优秀论文第一次挑战了拉普拉斯学派而声名大噪。
❞

不过，提出回归的高尔顿在做实验时并没带有任何性别歧视。只不过在回归起源的口口相传中，以讹传讹，最后就演变为父与子的身高分析了。

弗朗西斯·高尔顿（Francis Galton，1822－1911），英国科学家和探险家

为了调查此事，小简特意找出了高尔顿提出回归的那篇论文。

在文中，高尔顿的实验对象既包括父亲和母亲，也包括儿子和女儿。不过要说为何高尔顿萌生了做这项研究的想法，还要从他的「表哥达尔文」说起。

查尔斯·罗伯特·达尔文（Charles Robert Darwin，1809—1882），英国生物学家，进化论的奠基人。19 世纪出现一位推动生物学发展的伟大科学家，他在观察大量的动植物和地质结构之后，出版了《物种起源》一书，并提出生物进化论学说。这是一位坚信真实测量和三分律的科学家。

❝
我不相信任何缺乏“真实测量和三分律”的事情。——查尔斯·达尔文
❞

的确，在我们生存的世界上，真实测量就是分析问题的原材料，那么，三分律是什么呢？

贰从三分律引出的思考

1.三分律的定义

在那个时代，「三分律」在科学界是无人不知，因为它出现于科学家的启蒙课本——古希腊数学家「欧几里得的《几何原本》」，这本书也在素数那一篇推文中出镜过数学漫谈-素数之恋。

❝
三分律指的就是：假如，那么、、、中的任意三个都足以决定第四个。
❞

但是，当遇到存在「变化」和「测量误差」的时候，三分律就会给出错误答案。

2.三分律的误差

那么这个错误是什么含义呢？

咱们举个测量白杨树的例子看一看。

❝
这是虽在北方的风雪的压迫下却保持着倔强挺立的一种树！哪怕只有碗来粗细罢，它却努力向上发展，高到丈许，二丈，参天耸立，不折不挠，对抗着西北风。------茅盾《白杨礼赞》
❞

如果我们想测出白杨树的高度，怎么办？

如果此时你恰好带着一把卷尺，并且已知身高，不妨这样尝试一下：标记白杨树的位置，以及白杨树影子顶点的位置，然后在白杨树的影子里找一个位置站直，使得你头顶的影子恰好落在点，最后测量与的距离和与的距离。于是，

利用「三分律」可以计算出

假如你旁边的朋友也想凑个热闹，站在处，测量与的距离，也能得到白杨树的高度

但是，令人感到糟糕的是，这两个结果竟然不相等，于是你拉来一个过路人测量，发现竟然又出现第三个结果。导致这一现象的原因「就是真实测量所带来的误差」。

这时有人提议，用平均值可以避免误差，于是你做了更多的测量，取 20 个人身高的平均值，以及影长的平均值，计算出

这里的就是你第一天测量出的白杨树的影长，是第一天推测出的白杨树的高度，终于测出正确的结果啦，哈哈，接着你放心地睡了一觉。

第二天又来到同一棵白杨树下进行测量，想要验证前一天的结果。可没想到，采用平均值的方法，第二天估计出的高度与第一天不同，你可能觉得很崩溃，怎会如此？

3.高尔顿的探索

其实不用焦虑，当年英国著名科学家「弗朗西斯·高尔顿」，也遇到了类似的问题，不过他用来做实验的是考古学家发现的人类遗骸，用大腿骨的长度来推算身高。高尔顿发现，「他表哥信奉的三分律」，在这里完全不适用，于是对此做了更多的研究。

广为人所知的就是高尔顿研究的关于「父母与子女身高」的研究，这项研究极大地推动了人类遗传学的发展。

1885年，高尔顿以保密和给予金钱酬劳许诺，通过向社会征求的方式，获得了205对夫妇以及他们的928个成年子女身高。因为女子身高一般来说是低于男子的，所以高尔顿通过将女子身高乘以1.08来折算成男子身高。

❝
这里的「1.08」也不是凭空猜的，而是高尔顿计算出来的「男女平均身高之比」。

另外，统计学家皮尔逊曾经指出，男女身高的变异系数大致相同，所以高尔顿的做法还算是合理的。
❞

接着，为考虑父母双方对子女身高的影响，高尔顿「将父亲身高与折算之后的母亲身高的平均值作为“中亲（Mid-parent）”身高」，也就是「亲代变量」。

子女中男性身高不做处理，女性的身高也都乘以 1.08 进行折算，这里得到的就是「子代变量」。

然后，高尔顿将“中亲”身高分为 10 组，统计每个组中子女身高的情况。

类似于计算「白杨树高度」的时候采用的平均值，高尔顿为了消除每组误差的影响，取每组子女身高的中位数，如图中最右一列显示。小简也找到了当年高尔顿采集到的数据集，感兴趣的小伙伴可以在后台回复“回归”获取。

为了研究遗传的关系，小简做了一张补充图，采用前九组数据的「最左一列的“中亲”身高」与「最右一列子女身高」绘制散点图。

可见，子女与中亲身高近似线性关系，即父母身高较高的时候，子女的身高就相对高一些；当父母的身高较矮的时候，子女的身高也会相对矮一些。另外，高尔顿通过计算得到，「子女的身高约为中亲身高的倍」，他专门这九组数据绘制为线图。

高尔顿注意到，「子女身高（线）比“中亲”身高（线）更接近于平庸的中间身高（线）」。也就是说，并不是高个子的父母生育的子女会更高，矮个子的父母生育的子女会更矮。如果这样的话，人类的身高就分化出高矮两个极端了。

一般的情况是，存在更多的只有普通身高的父母但可以生育出超常身高的子女。后来，高尔顿又陆续用苹果、豌豆等做类似的实验，都出现类似于身高的现象，他称这种现象为“「回归」”现象。

叁如何解读回归现象

1.回归的含义

我们发现，在高尔顿的实验中，用的都是「中位数」，而「不是算术平均数」。因为在高尔顿看来，中位数避开了极端值的影响。但是，对于高尔顿所研究的身高数据，豌豆大小数据，苹果尺寸数据等等，都是遵循「高斯分布规律」的。

不过，对于高斯分布而言，「中位数、平均数以及众数」，是三位一体的。

后来，英国统计学家「埃奇沃思」就舍中位数而改用算术平均数，也就是现如今的「均值回归模型」。

弗朗西斯·伊西德罗·埃奇沃思（Francis Ysidro Edgeworth，1845-1926），是英国统计学家，数理统计学的先驱

如果用一个模型来描述高尔顿所研究的父母与子女的身高关系，可以得到最简单的线性回归模型—— 「一元线性回归」，

其中，就是“中亲”身高，称为「自变量（或解释变量）」，为子女身高，称为「因变量（或响应变量）」，为「误差项」。模型中的回归系数为，「截距项」为。

之所以回归模型在线性函数的基础上添加了一个「误差项」，就是因为测量或者观测误差。换而言之，高尔顿的研究发现，子女身高不只是受父母身高的影响，还有其他因素，比如环境等，这导致了亲代与后代之间出现不完美相关的结果，即所有的观测结果不完全在同一条直线上。

若自变量是维的，则可以推广至「多元线性回归模型」：

其中，为维自变量，为因变量，为误差项。模型中的回归系数为，截距项为。

假设误差项的期望，模型可以表示为期望回归方程的形式，

这就是我们之前数学思维奇妙夜-直播回顾介绍的「CAMP 模型」 和 「Fama-French 三因子模型」所具有的模型结构。

2.回归的谬误

回归模型一经提出，迅速成为风靡至今的模型！

❝
几乎所有的科学观察都着了魔似的向平均值回归——《女士品茶》
❞

不过，由于大部分回归模型使用者只知其表，不知其意。因此，由回归引发的一系列错误判断却屡见不鲜。比如，1933年的时候，美国西北大学的经济学家「贺拉斯·赛奎斯特（Horace Secrist）」 在著作《平庸商业中的伟大胜利》中提到这样一个案例，如果根据 1920 年的数据在按照利润率从高到低排序的百货公司排行榜中，选出 Top 25 来，那么这些公司的业绩会在 1930 年的时候趋于平庸。

他表明，「可以根据这类逐渐趋于平庸的结论做出商业决策」。可实际上，贺拉斯并未察觉到，如果根据 1930 年的数据选择 Top 25 的百货公司，这些公司的业绩在 1920-1930 期间会逐渐地远离平庸。如果仍然根据他坚信的平庸法则做商业决策，可能会导致大量的亏损。

为什么会出现这些现象呢？

这是因为研究对象的不同导致的。而且，「许多复杂的商业现象不只是与单一的」，或者某些特定的众多因素有关系，还存在许多我们已知却尚未纳入模型中或者根本未察觉到的因素。

再或者，即使我们将所有的因素都纳入线性回归模型中，也有可能因为「特征变量之间存在高度共线性」而做出错误决策。这时候，就发展出逐「步回归、岭回归」等统计模型。

另外，在统计模型中，为确保模型中理论的成立，通常有许多假设条件，一旦实际数据与假设条件相差太大，也会导致判断出错。

比如，如果一个公司假设盈利与产品原材料存在线性关系，为了获得更多的收益，会提前购买大量的原材料并雇用更多的员工，可是市场销售额是有限度的，如果盲目的采用线性回归模型，只会造成大量原材料的囤积。

还有，如果一个公司因为偿付能力的原因而储备资本，并且他们假设各种风险因素之间存在线性关系，那么这可能导致公司持有的资本太少或太多。但由于错误地采用线性模型，压力测试并不会真正反映出这些公司的风险。

❝
英国统计学家 George E. P. Box：

All models are wrong, but some are useful. Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.

所有模型都是错的，但其中有些是有用的。记住，所有模型都是错误的；关键的问题是模型错到什么程度就没有用处了。
❞

所以，任何一个模型使用时都要慎重，只要能在有效地范围内发挥作用即可！

好啦，这就是本期的周末大放送，喜欢这篇文章的小伙伴记得「点赞+在看+转发」哦~谢谢大家，疫情当下，希望大家都平安喜乐~