

【十分钟机器学习系列课程】讲义（三）：统计学习方法的三要素

简博士数据分析吧

2021-03-08

导读：本课程讲义基于李航老师第2版的《统计学习方法》

＊

内容提要：

＊监督学习

模型
策略
算法

＊无监督学习

点击蓝字｜关注我们

这一篇，我们学习一下构成统计学习方法的三要素——模型、策略、算法。当然，对于监督学习、无监督学习、强化学习，这三要素都是必备的，只不过形式不同。

对于监督学习，处理的是有标注的数据，数据中输出空间的类型已知，所以相应的模型、策略以及算法都是比较具体的。

但对于无监督学习，处理的数据是无标注信息的，我们希望找到隐含在数据内部的结构信息，这时候的三要素——模型、策略、算法就不那么具体了。

以下重点介绍监督学习，无监督学习的三要素此处只做简单概述。

监督学习

Supervised learning.

1. 模型

对于监督学习，模型主要可以表达成两种形式，一个是条

件概率分布的形式，一个是决策函数的形式。条件概率分布的形式，即概率模型；而决策函数的形式则是非概率模型。

如果模型是由决策函数组成的集合，那么假设空间将是所有可能决策函数的集合。每一个决策函数由一个参数向量决定，而假设空间是由参数向量所决定的函数组构成。我们称所有可能的参数向量组成的空间为参数空间，那么这个假设空间就应该是由参数空间决定的了。

举一个例子，假如遇到一个线性回归问题，实例、决策函数如下所示：

这里，所有可能的f(x)构成假设空间，而一组向量w和截距b就决定一个决策函数，因此参数空间是由所有可能的向量w和截距b构成的集合。

如果模型表示为条件概率分布的形式，那么假设空间就是由所有可能的条件概率分布组成的集合。对于每一个条件概率分布，它由一个参数向量来决定的，所以假设空间也可以说成是由一个参数向量决定的条件概率分布族构成的。此处，所有可能的参数构成参数空间。

举一个例子，对于Logistic回归，实例、条件概率分布函数如下所示：

此处假设空间就是由所有可能的条件概率分布构成的，而决定每一个条件概率分布的参数向量则是由向量w和截距b构成的，因此所有可能的w和b就构成了参数空间。

2. 策略

所有可能的模型组成假设空间，那么如何在假设空间里面选择一个最优模型呢？这里就需要用到第二个要素策略。

策略其实就是一种学习准则，用来选择最优模型的。想要选择模型，那么一定要知道如何度量模型的好坏。所以，这里先要引入几个概念。

先看一下损失函数，损失函数是用来度量模型一次预测好坏的，Y代表的是真实的输出，f(X)代表的是给定输入X的情况下，利用模型f得到的一个预测值，所以，这个损失函数是用来计算真实值与预测值之间差异的。

知道了一次预测的好坏怎么看？整体的好坏怎么看呢？

这里需要一个平均意义下度量值——风险函数。此处，风险函数就是对损失函数求概率期望，也就是平均意义下的风险。

如果对于假设空间中的每一个模型，我们都求一下损失函数值，选择一个最小的损失所对应的模型就是我们想要的最优模型了。

可是在风险函数中，概率分布并不是已知的，所以无法直接进行计算。此时应该怎么办呢？

我们可以选择了一个经验值或者说一个估计值来替代。即对每个样本，写出它的损失函数，然后求平均值，这个值就是经验风险。这里的下标 emp代表的就是empirical，也就是经验的意思。

下面我们看几种常见的损失函数。

之前学到过，当变量的类型不同时，要解决的问题也不一样。比如，当输出变量为有限个离散变量的时候，要解决的是分类问题。当输入和输出变量为连续变量的时候，这时候要解决的是回归问题。

此处0-1损失函数主要针对的就是分类问题，平方损失函数和绝对损失函数，主要针对的是回归问题，而对数损失函数主要针对的是概率模型，因为此处模型用的是条件概率分布的形式。

我们先看一下0-1损失函数，当真实值Y和预测值f(X)不相等的时候取，相等的时候，取0，这也是一种示性函数。在朴素贝叶斯中，用的就是这种。

下面看一下平方损失函数和绝对损失函数，这两种函数主要是来度量真实值和预测值之间距离的。具体来看，平方损失函数用的是平方距离，而绝对损失函数用的是绝对距离。k-近邻模型用的就是这两种函数。

对数损失函数，涉及到的模型是在给定X情况下，Y的条件概率分布，也就是用了条件概率分布模型，所以，对数损失函数针对概率模型。

根据大数定律，当样本容量N趋于无穷大的时候，经验损失就会趋于风险函数。所以，在一定程度上用经验损失作为风险函数的估计值是合理的。

可是在现实生活中，样本容量N一般是有限的，有的时候甚至会很小。因此，仅仅用经验风险来估计风险函数效果并不理想，需要对其进行一定的矫正。

这里就涉及到监督学习的两个基本策略，一个是经验风险最小化策略，一个是结构风险最小化策略。

当样本容量N足够大的时候，可以认为经验风险是风险函数的一个估计值，此时，只需选取使经验风险最小的模型即可。

但当样本容量N比较小的时候，仅仅经验风险最小化，容易造成过拟合的现象。于是引入结构风险的概念。结构风险是在经验风险的基础上加了一个惩罚项，惩罚项针对的是模型的复杂度，也就是这里的模型越复杂，J(f)就越大，当然模型越简单，J(f)就越小。结构风险的惩罚系数，可以平衡经验风险和模型的复杂度。结构风险最小化，则是选取一个使结构风险最小的模型。

关于监督学习的策略，追根究底，就是选取一个目标函数，可以是经验风险，或者是结构风险，然后通过优化这个目标函数，达到学习模型的目的。

3. 策略

在假设空间里面，根据策略去选择最优模型，需要一个具体的操作方案，操作方案也就是算法，是用来求解最优模型的。

如果这个最优模型存在显式解析解，那么简单了，直接把这个结果写出来即可。

但是往往这个显式解是不存在的，所以需要一定的数值计算方法，比如梯度下降法。

无监督学习

Unsupervised Learning.