

过去50年最重要的统计思想

谁说菜鸟不会数据分析

2021-03-15

点击上方蓝字“谁说菜鸟不会数据分析”

关注➕星标公众号

更多干货不错过！

本文转载自：量化投资与机器学习

1.1 反事实因果推理

在这里，我们首先要介绍在统计学、计量经济学、心理测量、流行病学和计算机科学领域出现的一些重要思想，它们都围绕着因果推理面临的挑战展开，并且都在某种程度上弥平了「对观测推理的因果解释」和「认识到关联关系并不意味着因果关系」这两方面的差距。

核心的思想在于，在某些假设情况下，我们可以识别出因果关系，而且我们可以严谨地声明这些假设，并且通过设计和分析以各种方式解决它们。

到目前为止，关于如何将因果模型应用于真实数据的具体问题上的争论仍在继续。然而，在过去的五十年中，这一领域的工作进展使因果推理所需要的这些假设变得精确得多，从而反过来又促进了解决这些问题的统计方法的相关工作。

研究人员针对各个领域研发出了各种各样的因果推理方法：在计量经济学领域中，人们主要关注对线性模型的因果估计的可解释性；在流行病学领域中，人们主要关注基于观测数据的推理；心理学家已经意识到交互和各种处理效应的重要性；在统计学领域中，出现了一系列有关匹配和其它调整并衡量实验组和对照组之间差别的方法；在计算机科学领域中，涌现出有关多维因果归隐模型的研究工作。

在上述所有工作中，有一条研究主线，即从反事实或可能得到的结果的层面上对因果问题进行建模，这相较于之前没有明确区分描述性推理和因果推理的标准方法是一个巨大的飞跃。

在这个研究方向上，具有里程碑意义的工作包括 Neyman (1923)，Welch (1937)，Rubin (1974)，Haavelmo (1973) 等人的研究成果，更加详细的研究背景请参阅 Heckman 和 Pinto 于 2015 年发表的论文「Causal analysis after Haavelmo」。

反事实因果推理的思想和方法在统计学以及相关的应用研究和策略分析领域都有深远影响。

1.2 bootstrap与基于模拟的推理

在过去的50年中，用计算取代数学分析是统计学的一大发展趋势。这一变化甚至在「大数据」分析出现之前就开始了。

bootstrap是最纯粹的基于计算定义的统计方法之一，它定义了一些估计量，并将其应用于一组随机重采样数据集。其思想是将估计值视为数据的一个近似的充分统计量，并将自助分布视为对数据的采样分布的近似。在概念层面上，人们推崇将预测和重新抽样作为基本原则，可以推导出诸如偏差校正和收缩等统计学操作。

历史上，这一方向诞生了「刀切法」和「交叉验证」等方法。此外，由于bootstrap思想的通用性及其简单的计算实现方式，bootstrap立刻被广泛用于各种传统的解析近似方法效果不佳应用，从而产生了巨大的影响。时至今日，充足的计算资源也起到了帮助作用，使得对许多重采样得到的数据集进行反复的推理变得十分容易。

计算资源的增加也使得其它重采样和基于模拟的方法流行了起来。在置换检验中，我们通过随机打乱排列真实值（target）来打破预测值和真实值之间的依赖关系，从而生成重采样数据集。参数化的bootstrap、先验和后验预测检查、基于模拟的校正都是根据模型创建了复制数据集，而不是直接从数据中重采样。在分析复杂模型和算法时，根据已知的数据生成机制采样的做法往往被用于创建模拟实验，用于补充或替代数学理论。

1.3 过参数化模型和正则化

自 20 世纪 70 年代以来，统计学受个方面的影响，发生了一个重大的变化，即用一些正则化过程得到稳定的估计和良好的预测结果，从而拟合具有大量参数（有时参数比数据点更多）的模型。该思想旨在在避免过拟合问题的同时，获得一种非参数化的或高度参数化的方法。我们可以通过针对参数或预测曲线的惩罚函数来实现正则化。

早期的高度参数化的模型包括「马尔科夫随机场」、「样条函数」、「高斯过程」，随后又出现了「分类和回归决策树」、「神经网络」、「小波收缩」、「Lasso 和 Horseshoe 等最小二乘的替代方法」、「支持向量机及相关理论」。

上述所有模型都会随着样本规模的增加而扩大，其参数往往也不能被直接解释，它们是一个更大的预测系统的一部分。在贝叶斯方法中，我们可以首先在函数空间中考虑先验，然后间接推导出相应的模型参数的先验。

在人们能够容易地获得充足的计算资源之前，这些模型的使用还十分有限。此后，图像识别、深度神经网络领域中的过参数化模型持续发展。Hastie、Tibshirani 以及 Wainwright 于 2015 年将许多该领域的工作定义为对稀疏结构的估计。

但是在本文作者看来，正则化技术更为通用，这是因为它使稠密的模型能够适应数据支持的程度。在统计学领域以外，这方面也产出了许多成果，例如：非负矩阵分解、非线性降维、生成对抗网络、自编码器。它们都是可以寻找结构和分解结果的无监督学习方法。

随着统计方法得到了发展，并被应用于更大的数据集上，研究者们还研发了一些调优、自适应，以及组合来自多个拟合结果的推理（包括 stacking 集成、贝叶斯模型平均、boosting 集成、梯度提升、随机森林）的方法。

1.4 多层模型

多层模型的参数因组而异，它使模型可以适应于聚类抽样、纵向研究、时间序列横断面数据、元分析以及其它结构化的环境。在回归问题中，一个多层模型可以被看做特定参数化的协方差结构，或者是一个参数数量随数据比例增加的概率分布。

多层模型可以被看做一种贝叶斯模型，它们包含未知潜在特征或变化参数的概率分布。反过来，贝叶斯模型也有一种多层结构，包含给定参数的数据和超参数的参数的分布。

对局部和一般信息进行池化（pooling）的思想是根据带有噪声的数据进行预测的固有数学原理。这一思想可以追溯到拉普拉斯和高斯，高尔顿也隐式地表达了这种思想。

部分池化的思想已经被应用于一些特定应用领域（例如：动物育种）。部分池化与统计估计问题中的多重性的一般关系由于 James 和 Stein 等人的工作而得到了理论上的重要进展。最终，这启发了心理学、药理学、抽样调查等领域的研究。Lindley 和 Smith 于 1972 年发表的论文，以及 Lindley 和 Novick 于 1981 年发表的论文提供了一种基于估计多变量正态分布的超参数的数学结构，而 Efron 和 Morris 等人则给出了相应的决策理论方面的解释，接着这些思想被融入了回归建模并被应用于广泛的使用结构化数据的问题。

从另一个方向来看，Donoho 等人于 1995 年给出了多元参数收缩的信息论解释。我们更倾向于将多层模型看做将不同的信息源进行组合的框架，而不是一个特定的统计模型或计算过程。因此，每当我们想要根据数据的子集进行推理（小面积估计）或将数据泛化到新问题（元分析）上的时候，就可以使用这种模型。类似地，贝叶斯推理的可贵之处在于，它不仅仅是一种将先验信息和数据组合起来的方法，也是一种解释推理和决策的不确定性的方法。

1.5 泛型计算方法

前文中讨论过的建模方面的研究进展高度依赖于现代计算科学，这不仅仅指的是更大的内存、更快的 CPU、高效的矩阵计算、对用户友好的语言，以及其它计算科学方面的创新。用于高效计算的统计算法方面的进展也是一个关键的因素。

在过去的 50 年中，在统计问题的结构方面出现了许多具有创新性的统计算法。EM 算法、Gibbs 采样、粒子滤波、变分推断、期望传播以不同的方式利用了统计模型的条件独立结构。

而 Metropolis 算法、混合或 Hamiltonian 蒙特卡洛算法则并没有直接受到统计问题的启发，它们最初被提出用于计算物理学中的高维概率分布，但是它们已经适应了统计计算，这与在更早的时候被用于计算最小二乘以及最大似然估计的优化算法相同。

当似然的解析形式很难求解或计算开销非常大时，被称为近似贝叶斯计算的方法（通过生成式模型仿真、而不是对似然函数进行估计得到后验推理）是十分有效的。

纵观统计学的历史，数据分析的发展、概率建模和计算科学是共同发展的。新的模型会激发具有创新性的计算算法，而新的计算技术又为更加复杂的模型和新的推理思想开启了大门（例如，高维正则化、多层建模、自助抽样法）。通用的自动推理算法使我们可以将模型的研发解耦开来，这样一来变更模型并不需要对算法实现进行改变。

1.6 自适应决策分析

自 20 世纪 40 年代至 20 世纪 60 年代，决策理论往往被认为是统计学的基石，代表性的工作包括：效用最大化、错误率控制、以及经验贝叶斯分析。

近年来，沿着上述工作的方向，研究人员在贝叶斯决策理论、错误发现率分析等领域也取得了一系列成果。决策理论还受到了有关人类决策中的启发与偏见的心理学研究的影响。

决策也是统计学的应用领域之一。在统计决策分析领域的领域中，重要的研究成果包括：贝叶斯优化、强化学习，这与工业中的 A/B 测试的实验设计的复兴以及许多工程应用中的在线学习有关。

计算科学的最新进展使我们可以将高斯过程和神经网络这些高度参数化的模型用作自适应决策分析中的函数的先验，还可以在仿真环境中进行大规模的强化学习，例如：创造能够控制机器人、生成文本、以及参与围棋等游戏。

1.7 鲁棒的推理

鲁棒性思想是现代统计学的核心，它指的是：即使在假设错误的前提条件下，我们也可以使用模型。实际上，开发出能够在违背上述假设的真实场景下良好运行的模型对于统计理论来说是十分重要的。

Tukey 曾于 1960 年在论文「A survey of sampling from contaminated distributions」中对该领域的工作进行了综述，Stigler 也于 2010 年在论文「The changing history of robustness」中进行了回顾。

受到 Huber 等人工作的影响，研究者们开发出了一系列在现实生活中（尤其是经济学领域，人们对统计模型的缺陷有深刻的认识）具有一定影响力的鲁棒方法。在经济学理论中，存在「as if」分析和简化模型的概念，因此计量经济学家会对在一系列假设下还能运行良好的统计程序十分感兴趣。例如，经济学和其它社会科学领域的应用研究人员广泛使用鲁棒标准误差以及部分识别。

一般来说，正如在 Bernardo 和 Smith 于 1994 年所提出的「M-开放世界」（在这个世界中，数据生成过程不属于拟合的概率模型）下评估统计过程的想法一样，统计研究中的鲁棒性的主要影响并不在于对特定方法的发展。Greenland 认为，研究者需要显式地解释传统统计模型中没有考虑的误差来源。对鲁棒性的关注与高度参数化的模型相关，这是现代统计学的特点，对模型评估有更普遍的影响。

1.8 探索性数据分析

上文讨论的统计思想都涉及密集的理论和计算的结合。从另一个完全不同的方向来看，研究人员们进行了一种具有影响力的「回归到本质」的探索，他们跳出概率模型，重点关注数据的图形可视化。

Tukey 和 Tufte 等人在他们的著作中曾对统计图的优点进行了讨论，而许多这样的思想通过他们在数据分析环境 S（目前在统计学及其应用领域占据主导地位的 R 语言的前身）中的实现开展了统计实践。

在 Tukey 之后，探索性数据分析的拥趸重点说明了渐进理论的局限性以及开放式探索和通信的好处，并且阐明了超越统计理论的对统计科学的更一般的观点。这与更加关注发现而非检验固定假设的统计建模观点不谋而合。

同时，它不仅在特定的图形化方法的发展中十分具有影响力，也从科学的数据中学习，将统计学从定理证明转向更开放、更健康的角度。举例而言，在医学统计学领域中，Bland 和 Altman 于 1986 年发表的一篇高被引论文推荐人们将图形化方法用于数据对比，从而替换关联性和回归分析。

此外，研究人员试图形式化定义探索性数据分析：Gelman 将数据展示与贝叶斯预测检查的可视化相结合，Wilkinson 形式化定义了统计图中固有的对比和数据结构，而 Wickham 通过这种方式得以实现了一个极具影响力的 R 语言程序包，从而在许多领域中改变了统计学实践。

计算的进步使从业者们能够快速构建大型的复杂模型，其中在理解数据、拟合的模型、预测结果之间的关系时，统计图是十分有用的。「探索性模型分析」有时被用来获取数据分析过程的实验特性。研究人员们也一直进行着将可视化囊括在模型构建和数据分析过程中的研究工作。

这就是今天想跟大家分享的全部内容。觉得有帮助的话，别忘了右下角点个“在看”哦！每天进步一点点，一起加油！

【声明】内容源于网络

谁说菜鸟不会数据分析

以大数据分析为驱动，spss/R/python/数据分析交流技术分享，实用教程干货，敬请期待，B站UP主：谁说菜鸟不会数据分析有更多在线实操视频。

内容 498

粉丝 0

谁说菜鸟不会数据分析以大数据分析为驱动，spss/R/python/数据分析交流技术分享，实用教程干货，敬请期待，B站UP主：谁说菜鸟不会数据分析有更多在线实操视频。

总阅读45

粉丝0

内容498