

【十分钟机器学习系列课程】讲义（二十四）：决策树的后剪枝MEP

简博士数据分析吧

2021-11-06

导读：本课程讲义基于李航老师第2版的《统计学习方法》

＊

内容提要：

* 最小误差剪枝

* 算法说明

* 例题讲解

点击蓝字｜关注我们

欢迎回来。上篇讲义我们开启了「决策树」中的「后剪枝」的篇章。

后剪枝的概念是指对已经生成的决策树进行剪枝，常见的方法有：

❝

降低错误剪枝 Reduce Error Pruning

悲观错误剪枝 Pessimistic Error Pruning

最小误差剪枝 Minimum Error Pruning

基于错误的剪枝 Error Based Pruning

代价复杂度剪枝 Cost-Complexity Pruning

❞

上篇我们讲了前两种方法【十分钟机器学习系列课程】讲义（二十三）：决策树的后剪枝-REP和PEP，今天继续讲解第三种方法-「最小误差剪枝MEP的方法」。

壹最小误差剪枝MEP-算法说明

「原理」：根据剪枝前后的最小分类错误来决定是否剪枝。

「特点」：自下而上剪枝，只需要训练集即可。

在结点处，计算出属于类别的概率

那么这个概率怎么计算呢？常规的计算就是在结点处将属于类别的个数比上总样本个数，也就是，但是现在我们要将先验概率考虑进来，也就是贝叶斯思维，需要复习这个知识点的小伙伴可以点击链接回顾一下哦。【十分钟机器学习系列课程】讲义（十六）：朴素贝叶斯法【十分钟机器学习系列课程】讲义（十八）：贝叶斯估计

先验的单词是prior，那么这里的 「就是在结点出类别的先验概率」，那么又是什么呢？「是指先验概率对后验概率的影响」。

❝

如果，意味着以后验概率为准。

如果，意味着以先验概率为准。

❞

在结点处，计算出预测错误率

如果我们将结点记为类别，那么预测错误率自然就是不属于类的啦，今天我们讲的这个方法叫做「最小误差剪枝」，顾名思义，就是求最小的预测错误率啦。

接着把上面的概率式子代入到预测错误率中，也就是要求出：

如果先验概率是确定的，那么就是以作为变量，得到对应的预测错误率的最小值。

❝

注意：这里的是需要计算选择出来的哦，而不是给定的。我们可以通过

选出合适的。

❞

在这里,为了演示MEP的算法，我们假设，是指类别的总个数，

一般，在无任何假设的情况下，我们通常假设各类别是等概率出现的，因此，先验概率为。

这样，我们的预测错误率就可以写作

贰最小误差剪枝MEP-步骤讲解

首先咱们先用两步走计算剪枝前的预测错误率。

Step 1 计算剪枝前目标子树每个叶子结点的预测错误率

代表在叶子结点处样本的个数，代表在叶子结点处属于第类的样本个数。

Step2 计算剪枝前目标子树的预测错误率

假如目标子树中一共有个叶子结点

这里的就是指每个叶子结点对应目标子树的权重。

接着咱们就来计算剪枝后的错误率，并且来比较剪枝前后的预测错误率，「如果剪枝后错误率降低了，那么就意味着可以剪枝」，反之就不可以哦。

Step3 计算剪枝后目标子树的预测错误率

这里就是将整个子树判定为类，计算出对应的预测错误率。

Step4 比较剪枝前后的预测错误率，如果满足以下不等式，则剪枝；否则，不剪枝

叁最小误差剪枝MEP-例题计算

咱们还是用上篇悲观错误剪枝中的例子来看看。

这里T4~T8分别代表了叶子结点。+号代表「正类样本」，-号代表「负类样本」，个数就是对应的数字哦。接着可以看到3个矩形叶子结点，分别是T6、T7、T8。

绿色表示正类，红色表示负类。

现在我们就要「用最小误差剪枝方法判断在T5这棵子树处是否需要剪枝」，那么就开始吧！

1、计算剪枝前目标子树每个叶子结点的预测错误率

我们看到T5这棵子树有T7和T8两个叶子结点，那么咱们就分别计算一下预测误差率吧！

T7这个叶子结点的样本总是为，一共分为了正类和负类，意味着 ,那么就可以知道啦。这里由于T7属于正类，其中2个不属于正类。那么分子就等于负类的个数加上1。

同理可以求出T8的预测错误率，这里注意哦，由于这个叶子属性是负类，这里分子就以正类的个数来计算。

2、计算剪枝前目标子树的预测错误率

接着我们计算出T7和T8的权重，分别「就是它们在子树T5中的个数占比」，然后乘以各自结点的预测错误率后求和，就算出T5这棵目标子树的预测错误率啦。

3、计算剪枝后目标子树的预测错误率

可以看出T5这个叶子结点中，有10个正类，10个负类，那咱们不妨就把它认为是正类。接着就可以来计算预测错误率啦。

4 比较剪枝前后的预测错误率

咱们可以看出剪枝前的误差率明显小于剪枝后的，说明剪枝后的误差率反而提高了，那就得出了「不能剪枝」的结论。

好啦，今天的分享就到此，下篇我们将继续分享剩余2种后剪枝方法，咱们下期不见不散，感兴趣的朋友可以点击视频链接继续学习哦~

决策树后剪枝-最小错误剪枝-原理篇

决策树后剪枝-最小误差剪枝-实例篇

欢迎大家关注简博士的B站和公众号，在公众号私信“入群”，可以与小伙伴们一起讨论问题哦。

【声明】内容源于网络

简博士数据分析吧

信息时代最不缺的是什么？数据！最缺的是什么？数据分析的思维！在这里，你将获取神秘的力量，推开数据之门！

内容 181

粉丝 0

简博士数据分析吧信息时代最不缺的是什么？数据！最缺的是什么？数据分析的思维！在这里，你将获取神秘的力量，推开数据之门！

总阅读92

粉丝0

内容181

【十分钟 机器学习 系列课程】 讲义（二十四）：决策树的后剪枝MEP

壹 最小误差剪枝MEP-算法说明

在结点 处，计算出属于类别 的概率

在结点 处，计算出预测错误率

贰 最小误差剪枝MEP-步骤讲解