

【机器学习课后习题系列教程】第 5 章习题解答（上）

简博士数据分析吧

2025-02-02

＊

内容提要：

* 习题 5.1 详解

* 习题 5.2 详解

点击蓝字｜关注我们

前方提示：实际上，只要足够仔细，并且有充足的耐心，这两道习题就可以轻松解决。

习题 5.1 详解

「习题 5.1」 根据表 5.1 所给的训练数据集，利用信息增益比（C4.5 算法）生成决策树。

先贴出信息增益比的定义

❝
「信息增益比」特征对训练数据集的信息增益比定义为其信息增益与训练数据集关于特征的值的熵之比，即

其中，是特征取值的个数。

注：该定义来自于《统计学习方法（第 2 版）》第 76 页。
❞

表 5.1 是一个由 15 个样本组成的贷款申请训练数据。数据包括贷款申请人的 4 个特征（属性）：第 1 个特征是年龄，有 3 个可能值：青年，中年，老年；第 2 个特征是有工作，有 2 个可能值：是，否；第 3 个特征是有自己的房子，有 2 个可能值：是，否；第 4 个特征是信贷情况，有 3 个可能值：非常好，好，一般。表的最后一列是类别，是否同意贷款，取 2 个值：是，否。

分别用、、、表示“年龄”、“有工作”、“有自己的房子”和“信贷情况”这 4 个特征。

选出根结点处的最优特征

(1) 计算经验熵

数据集的样本点个数为，类别“是否同意贷款”包含两类样本，同意贷款的数据子集记作，不同意贷款的数据子集记作，根据表 5.1，易知，则

(2) 计算年龄特征的经验条件熵

首先看一下这个特征。这一特征的取值为青年、中年和老年，该特征下的数据统计表格如下表所示。

根据表格，分别计算“年龄”特征每一取值下的权重和经验熵。

取值为青年时

取值为中年时

取值为老年时

于是，可以得到“年龄”特征的经验条件熵为：

(3) 计算“年龄”特征的信息增益

(4) 计算数据集关于“年龄”特征的熵

(5) 计算“年龄”特征的信息增益比

(6) 计算其他特征的信息增益比

类似于上述 (1)-(5) 中“年龄”特征下信息增益比的计算，同样可以得到特征、、的信息增益比，结果如表所示。

以信息增益比作为准则选出根结点处的最优特征为“有自己的房子”，有自己的房子的样本点，都归属于“同意贷款”此处生成一个单一的叶结点。

选出下一结点处的最优特征

将没有自己的房子的所有样本点作为新的训练集。

当前剩余的特征包括：年龄、有工作、信贷情况。下面分别计算这 3 个特征下的信息增益比。

(1) 计算当前数据集的信息熵

(2) 计算“年龄”特征的经验条件熵

根据年龄对新的训练集进行划分，得到表格。

分别计算“年龄”特征每一取值下的权重和经验熵。