

【十分钟机器学习系列课程】讲义（五）：正则化与交叉验证

简博士数据分析吧

2021-04-01

导读：本课程讲义基于李航老师第2版的《统计学习方法》

＊

内容提要：

* 正则化

* 交叉验证

点击蓝字｜关注我们

这一篇中，我们学习一下正则化与交叉验证。这是监督学习中两种常用的模型选择方法。

正则化

Regularization

上一节讲到，对模型进行评估时，主要是从模型对已知数据和未知数据的预测能力来评价，所以选择模型时要平衡两者。

过拟合：训练误差低，测试误差高
欠拟合：训练误差高，测试误差低

追溯到模型结构上，过拟合往往由于模型结构太过复杂而导致，欠拟合则是由于模型结构太简单。

为了平衡模型的对已知数据和未知数据的预测能力，我们在原来的经验风险上加上了正则化项，以此度量模型复杂度。经验风险与正则化项一起构成结构风险函数。

正则化，就是通过使结构风险最小化来实现的。在正则化的一般形式中，目标函数为结构风险。其中，第一部分是经验风险，用以度量模型在训练集中的平均损失，第二部分被称为正则化项或惩罚项，J(f) 度量模型的复杂度，系数 λ，用以调整经验风险和模型复杂度之间的关系。

一般，模型参数越多，模型越复杂，J(f) 就越大。

λ 越大，模型选择时越重视泛化能力，选出来最优模型参数越少；与之相对地，系数越小，越重视拟合能力，选出来的最优模型可能会出现过拟合。

这是因为，如果 λ 很大，J(f) 的微小变化都能引发结构风险的一个很大的变化，那么，通过正则化就会压缩模型复杂度，则会避免过拟合的现象出现。但是，如果 λ 非常小，J(f) 的巨大变化才能引发结构风险的一个很小的变化，那么，此时通过正则化就无法降低模型复杂度了。因此，系数 λ 的选择是个关键。

我们的目的是选择拟合能力和泛化能力都很强的模型。

正则化项有很多种形式，最常见的是以上两种。

第一个正则化项是L1范数，即参数绝对值之和，更适用于特征筛选，在回归分析中，就是大家熟知的Lasso回归，可以选择出一个稀疏的模型。稀疏模型，指的非零参数个数很少的模型。

第二个正则化项是L2范数，即参数的平方和，主要用以防止过拟合现象的出现，在回归分析中，是大家熟悉的岭回归。L2正则化项的构成，使得在正则化的时候，参数可以无限的接近于0，但是与L1范数不同，这里参数只是接近于0，很难出现直接等于0的情况。所以，这一类正则化项，可以使得模型越来越简单，防止过拟合现象的出现，但无法起到特征筛选的作用。

再说一下，为什么L2范数这里有一个1/2？这主要是出于数学运算的方便。求极值时，如果使用求导的方法，那么1/2恰好可以约去。

正则化，就用来选择经验风险和模型复杂度同时都很小的模型。这种思想非常符合奥卡姆剃刀原理。即在模型选择时，选择假设空间中既能很好地解释已知数据，结构又十分简单的模型。