内容提要:
* 18世纪数学家的故事
* 从三分律引出的思考
* 如何解读回归现象
点击蓝字 |关注我们
欢迎回来。在之前的讲义中【十分钟 机器学习 系列课程】 讲义(三十一):Logistic逻辑回归模型,我们讲了若干次的回归起源,也就是由父与子的身高关系,高尔顿提出「回归」一词。
有小伙伴提出疑问:
❝为什么要研究父与子的身高,母亲和女儿呢?难道那时候的科学研究有性别歧视?
❞
今天我们就来一场统计学的考古,重谈回归的起源。
壹 18世纪数学家的故事
在开始之前,我们先聊聊18世纪时的数学往事。
的确,历史上的科学家大多是男性,而在18世纪那个时候,社会上普遍存在对女性科学家的成见。
比如,「艾米莉·布瑞杜尔」,曾出生在法国上流社会,接受了全方位的科学与文学的教育。12岁的时候已经精通意大利语、希腊语、德语。后来又与伏尔泰谈起了恋爱,翻译了牛顿的多本巨著。然而,或许出于嫉妒,艾米莉被法国上流社会中不懂科学的女性奚落、丑化,被描述为丑陋、粗鲁的女人,最后死于难产。
于是,很多女数学家不敢暴露真身。比如,「玛丽苏菲•热尔曼(Marie-Sophie Germain)」就曾假冒男性,与一些著名的科学家高斯、拉格朗日等通信。
❝热尔曼出身巴黎一个殷实的商人家庭,她从小热爱数学,但不为家庭所鼓励。身为女性,她被拒于巴黎综合工科学校大门之外,顾虑到当时普遍存在的对女性科学家的成见,她常常不得不以假名和其他数学家(比如拉格朗日和高斯等)通信。热尔曼的求学故事折射出了当时女性求学的困难和自卑。通过不懈的努力,她在声学、弹性的数学理论和数论等方面都取得了出色的成果。
在1816年1月,热尔曼因提出的“弹性表面理论”的优秀论文第一次挑战了拉普拉斯学派而声名大噪。
❞
不过,提出回归的高尔顿在做实验时并没带有任何性别歧视。只不过在回归起源的口口相传中,以讹传讹,最后就演变为父与子的身高分析了。
为了调查此事,小简特意找出了高尔顿提出回归的那篇论文。
在文中,高尔顿的实验对象既包括父亲和母亲,也包括儿子和女儿。不过要说为何高尔顿萌生了做这项研究的想法,还要从他的「表哥达尔文」说起。
❝我不相信任何缺乏“真实测量和三分律”的事情。——查尔斯·达尔文
❞
的确,在我们生存的世界上,真实测量就是分析问题的原材料,那么,三分律是什么呢?
贰 从三分律引出的思考
1.三分律的定义
在那个时代,「三分律」在科学界是无人不知,因为它出现于科学家的启蒙课本——古希腊数学家「欧几里得的《几何原本》」,这本书也在素数那一篇推文中出镜过数学漫谈-素数之恋。
❝三分律指的就是:假如 ,那么 、 、 、 中的任意三个都足以决定第四个。
❞
但是,当遇到存在「变化」和「测量误差」的时候,三分律就会给出错误答案。
2.三分律的误差
那么这个错误是什么含义呢?
咱们举个测量白杨树的例子看一看。
❝这是虽在北方的风雪的压迫下却保持着倔强挺立的一种树!哪怕只有碗来粗细罢,它却努力向上发展,高到丈许,二丈,参天耸立,不折不挠,对抗着西北风。------茅盾《白杨礼赞》
❞
如果我们想测出白杨树的高度,怎么办?
如果此时你恰好带着一把卷尺,并且已知身高 ,不妨这样尝试一下:标记白杨树的位置 ,以及白杨树影子顶点的位置 ,然后在白杨树的影子里找一个位置 站直,使得你头顶的影子恰好落在 点,最后测量 与 的距离 和 与 的距离 。于是,
利用「三分律」可以计算出
假如你旁边的朋友也想凑个热闹,站在 处,测量 与 的距离 ,也能得到白杨树的高度
但是,令人感到糟糕的是,这两个结果竟然不相等,于是你拉来一个过路人测量,发现竟然又出现第三个结果。导致这一现象的原因「就是真实测量所带来的误差」。
这时有人提议,用平均值可以避免误差,于是你做了更多的测量,取 20 个人身高的平均值 ,以及影长的平均值 ,计算出
这里的 就是你第一天测量出的白杨树的影长, 是第一天推测出的白杨树的高度,终于测出正确的结果啦,哈哈,接着你放心地睡了一觉。
第二天又来到同一棵白杨树下进行测量,想要验证前一天的结果。可没想到,采用平均值的方法,第二天估计出的高度 与第一天不同,你可能觉得很崩溃,怎会如此?
3.高尔顿的探索
其实不用焦虑,当年英国著名科学家「弗朗西斯·高尔顿」,也遇到了类似的问题,不过他用来做实验的是考古学家发现的人类遗骸,用大腿骨的长度来推算身高。高尔顿发现,「他表哥信奉的三分律」,在这里完全不适用,于是对此做了更多的研究。
广为人所知的就是高尔顿研究的关于「父母与子女身高」的研究,这项研究极大地推动了人类遗传学的发展。
1885年,高尔顿以保密和给予金钱酬劳许诺,通过向社会征求的方式,获得了205对夫妇以及他们的928个成年子女身高。因为女子身高一般来说是低于男子的,所以高尔顿通过将女子身高乘以1.08来折算成男子身高。
❝这里的「1.08」也不是凭空猜的,而是高尔顿计算出来的「男女平均身高之比」。
另外,统计学家皮尔逊曾经指出,男女身高的变异系数大致相同,所以高尔顿的做法还算是合理的。
❞
接着,为考虑父母双方对子女身高的影响,高尔顿「将父亲身高与折算之后的母亲身高的平均值作为“中亲(Mid-parent)”身高」,也就是「亲代变量」。
子女中男性身高不做处理,女性的身高也都乘以 1.08 进行折算,这里得到的就是「子代变量」。
然后,高尔顿将“中亲”身高分为 10 组,统计每个组中子女身高的情况。
类似于计算「白杨树高度」的时候采用的平均值,高尔顿为了消除每组误差的影响,取每组子女身高的中位数,如图中最右一列显示。小简也找到了当年高尔顿采集到的数据集,感兴趣的小伙伴可以在后台回复“回归”获取。
为了研究遗传的关系,小简做了一张补充图,采用前九组数据的「最左一列的“中亲”身高」与「最右一列子女身高」绘制散点图。
可见,子女与中亲身高近似线性关系,即父母身高较高的时候,子女的身高就相对高一些;当父母的身高较矮的时候,子女的身高也会相对矮一些。另外,高尔顿通过计算得到,「子女的身高约为中亲身高的
倍」,他专门这九组数据绘制为线图。
高尔顿注意到,「子女身高(线 )比“中亲”身高(线 )更接近于平庸的中间身高(线 )」。也就是说,并不是高个子的父母生育的子女会更高,矮个子的父母生育的子女会更矮。如果这样的话,人类的身高就分化出高矮两个极端了。
一般的情况是,存在更多的只有普通身高的父母但可以生育出超常身高的子女。后来,高尔顿又陆续用苹果、豌豆等做类似的实验,都出现类似于身高的现象,他称这种现象为“「回归」”现象。
叁 如何解读回归现象
1.回归的含义
我们发现,在高尔顿的实验中,用的都是「中位数」,而「不是算术平均数」。因为在高尔顿看来,中位数避开了极端值的影响。但是,对于高尔顿所研究的身高数据,豌豆大小数据,苹果尺寸数据等等,都是遵循「高斯分布规律」的。
不过,对于高斯分布而言,「中位数、平均数以及众数」,是三位一体的。
后来,英国统计学家「埃奇沃思」就舍中位数而改用算术平均数,也就是现如今的「均值回归模型」。
如果用一个模型来描述高尔顿所研究的父母与子女的身高关系,可以得到最简单的线性回归模型—— 「一元线性回归」,
之所以回归模型在线性函数的基础上添加了一个「误差项」,就是因为测量或者观测误差。换而言之,高尔顿的研究发现,子女身高不只是受父母身高的影响,还有其他因素,比如环境等,这导致了亲代与后代之间出现不完美相关的结果,即所有的观测结果不完全在同一条直线上。
若自变量是 维的,则可以推广至「多元线性回归模型」:
其中, 为 维自变量, 为因变量, 为误差项。模型中的回归系数为 ,截距项为 。
假设误差项 的期望 ,模型可以表示为期望回归方程的形式,
这就是我们之前数学思维奇妙夜-直播回顾介绍的「CAMP 模型」 和 「Fama-French 三因子模型」所具有的模型结构。
2.回归的谬误
回归模型一经提出,迅速成为风靡至今的模型!
❝几乎所有的科学观察都着了魔似的向平均值回归——《女士品茶》
❞
不过,由于大部分回归模型使用者只知其表,不知其意。因此,由回归引发的一系列错误判断却屡见不鲜。比如,1933年的时候,美国西北大学的经济学家「贺拉斯·赛奎斯特(Horace Secrist)」 在著作《平庸商业中的伟大胜利》中提到这样一个案例,如果根据 1920 年的数据在按照利润率从高到低排序的百货公司排行榜中,选出 Top 25 来,那么这些公司的业绩会在 1930 年的时候趋于平庸。
他表明,「可以根据这类逐渐趋于平庸的结论做出商业决策」。可实际上,贺拉斯并未察觉到,如果根据 1930 年的数据选择 Top 25 的百货公司,这些公司的业绩在 1920-1930 期间会逐渐地远离平庸。如果仍然根据他坚信的平庸法则做商业决策,可能会导致大量的亏损。
为什么会出现这些现象呢?
这是因为研究对象的不同导致的。而且,「许多复杂的商业现象不只是与单一的」,或者某些特定的众多因素有关系,还存在许多我们已知却尚未纳入模型中或者根本未察觉到的因素。
再或者,即使我们将所有的因素都纳入线性回归模型中,也有可能因为「特征变量之间存在高度共线性」而做出错误决策。这时候,就发展出逐「步回归、岭回归」等统计模型。
另外,在统计模型中,为确保模型中理论的成立,通常有许多假设条件,一旦实际数据与假设条件相差太大,也会导致判断出错。
比如,如果一个公司假设盈利与产品原材料存在线性关系,为了获得更多的收益,会提前购买大量的原材料并雇用更多的员工,可是市场销售额是有限度的,如果盲目的采用线性回归模型,只会造成大量原材料的囤积。
还有,如果一个公司因为偿付能力的原因而储备资本,并且他们假设各种风险因素之间存在线性关系,那么这可能导致公司持有的资本太少或太多。但由于错误地采用线性模型,压力测试并不会真正反映出这些公司的风险。
❝英国统计学家 George E. P. Box:
All models are wrong, but some are useful. Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.
所有模型都是错的,但其中有些是有用的。记住,所有模型都是错误的;关键的问题是模型错到什么程度就没有用处了。
❞
所以,任何一个模型使用时都要慎重,只要能在有效地范围内发挥作用即可!
好啦,这就是本期的周末大放送,喜欢这篇文章的小伙伴记得「点赞+在看+转发」哦~谢谢大家,疫情当下,希望大家都平安喜乐
~
拓展阅读
欢迎大家关注简博士的B站和公众号,在公众号私信“入群”,可以与小伙伴们一起讨论问题哦。

