大数跨境
0
0

【十分钟 机器学习 系列课程】讲义(十六):朴素贝叶斯法

【十分钟  机器学习  系列课程】讲义(十六):朴素贝叶斯法 简博士数据分析吧
2021-09-07
0
导读:本课程讲义基于李航老师第2版的《统计学习方法》



内容提要:

 * 因何而“朴素”

 * 后验概率最大化准则

点击蓝字 |关注我们

欢迎回来。在上篇推送中,我们给大家介绍了朴素贝叶斯法,我们常用它解决分类问题,所以就有了朴素贝叶斯分类器,从根本上来说它就是一种「分类方法」。从起名就看得出来,它将「贝叶斯定理」「特征条件独立假设」两者结合在一起。

朴素贝叶斯

今天我们继续说说,朴素贝叶斯「因何而朴素」,它的判断准则又是什么呢?

壹 如何理解“朴素”

首先,来看一个训练数据集,计算得出一个联合概率分布。

已知训练数据集:

「输入」

「输出」

生成方法:学习联合概率分布

还记得在第一章中,我们给大家介绍了生成方法和判别方法。区别在哪呢?

「1.生成方法:」 首先学习联合概率分布 ,得到条件概率分布 ,即生成模型,比如朴素贝叶斯法和隐马尔可夫模型。

「2.判别方法:」 直接从训练数据集得到决策函数 或者条件概率分布 作为预测的模型,比如 近邻法、感知机、逻辑斯谛回归模型、最大熵模型、支持向量机等。

接下来,我们就一起看如何求出联合概率分布。

1. 联合概率分布

还是以巧克力为例。

请问:巧克力是黑色的并且来自于 盒的概率 是多少?

这里的 其实就是联合概率分布

  • 对应的是颜色特征
  • 对应的是所属类别

根据上篇讲义【十分钟  机器学习  系列课程】讲义(十五):朴素贝叶斯定理,我们可以快速地列出这个求解公式:

叫做「先验概率分布」,也可以表示成:

叫做「条件概率分布」,也可以表示成:

这样是不是很容易理解呢?接着,就可以对巧克力的每个「特征(颜色)」 计算出联合概率分布。

联合概率分布
但是如果我们想知道随机拿出某一个颜色的巧克力,问它是来自 盒或者 盒时的概率,该怎么计算呢?

没错,这里的条件发生了对调,由 变成了

这一个,就称为「后验概率分布」

再一次体现出贝叶斯思维就是条件概率的「逆向」思维。

那么为什么要「朴素」呢?

2. 为什么要有条件独立性假设?

上篇推文中,我们讲到:

朴素:特征条件相互独立

举个栗子。

看过日漫的小伙伴,都知道有很多的帅哥,那么帅是怎么定义的呢?

你喜欢哪个类型的呢?是黑执事中的塞巴斯蒂安,还是夏目?这时候我们可以简单的取四种特征,来做个判断,在你心目中到底谁更帅。

此时,可以根据特征列一个表格:

特征 种类 种类
身高 高于170cm -高 小于等于170cm-矮
体重 高于70kg-重 小于等于70kg-轻
脸型 圆脸 长脸
鼻型 高鼻梁 低鼻梁

假如每种特征都有两种情况,并且最后的属性也有两种,那么计算联合概率分布时,会有 种组合。

如果用数学语言表达就是:

1. 的可能取值有 个」组合数就是

2. 的可能取值有 个」

3.「总的组合数就是

惊人的组合数,随着指数级的增加而递增。

指数增长是非常恐怖的!

以新冠肺炎为例,假如现在感染的人数是 人,按照每天新增 的比例增加,那么到了第 天,感染的人数会增加到 ,如果不加以控制,从 人到全球 亿人,理论上只需要 天。

因此,在朴素贝叶斯法中,需要加了一个特征相互独立的假设,不然我们计算不出来这么大的联合概率分布,这样就可以转化为简单的形式:

于是,「后验概率」就是:


贰 后验概率最大化准则

1. 朴素贝叶斯分类方法

了解了朴素贝叶斯法的重要性,那么我们再来看看它的具体计算方法是什么?

假如存在   类  ,现在给定一个新的实例

问:该实例归属哪一类

这个问题对我们来说并不陌生,在上篇推送中已经给出了答案。


由于分母都相同,因此,只需要计算出分子的最大值就可找出这个实例所对应的类。


2. 0-1损失函数

那么对应的判断准则又怎么界定呢?如果得到模型有多个,那个模型更好呢,如何进行比较?


近邻法中,为了制定规则来决定这个分类函数的好与坏,我们需要比较分类问题的损失情况,在朴素贝叶斯方法中继续用到0-1损失函数


0-1~损失函数




是分类决策函数


是对应的分类,输出空间为


当两者相等,证明分类正确,没有损失,反之记为1,有损失。


这个损失函数对应的期望是:




由于朴素贝叶斯法用到的是条件概率的方式,因此对于损失函数的期望也以条件概率进行表达,将损失函数对应的期望最小值可以写成:


期望的下标 ,表示这里的期望对应的是已知 的条件概率分布


学过概率论的小伙伴们都还记得:


数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一,它反映随机变量平均取值的大小

那么上面这个期望最小值表达式,就可以理解为是先计算出每个分类的损失函数 乘以对应这个分类发生的概率 再对所有计算值进行求和后的结果。

根据这个思路,我们就可以考虑所有的特征后,进行期望最小值的计算,最小的期望风险所对应的那个模型就是我们想要的那一个。

如果,这时候有一个新的实例 ,我们如何得到它的分类决策函数 呢?

仍然去找使损失期望最小值的那个!


于是,之前的式子可以写为

而我们知道当 时,损失记为1,反之为0,没有损失,也就意味只有当 时,才会有损失值,否则都为0,这样就可以对这个函数进行简化:

注意:「由于在 的分类中,最终只有最小值满足

因此上式中的第三行等式去掉了求和符号,意味着对计算后,找到其中的最大值,记为 「此时所得到的 就是通过朴素贝叶斯法求出的类」
至此,就实现了将「期望风险最小化」转为「后验概率最大化」,这就是朴素贝叶斯法的判断准则。
好啦,今天的分享到此结束,感兴趣的小伙伴可以点击链接继续学习本节视频,喜欢我们的朋友请记得「星标+点赞+在看」,谢谢大家!

4.2 朴素贝叶斯法:因何而朴素?
4.3 朴素贝叶斯法:后验概率最大化准则

欢迎大家关注简博士的B站和公众号,在公众号私信“入群”,可以与小伙伴们一起讨论问题哦。


扫码关注我们

微信号|Dr_Janneil

B站|简博士


【声明】内容源于网络
0
0
简博士数据分析吧
信息时代最不缺的是什么?数据!最缺的是什么?数据分析的思维!在这里,你将获取神秘的力量,推开数据之门!
内容 181
粉丝 0
简博士数据分析吧 信息时代最不缺的是什么?数据!最缺的是什么?数据分析的思维!在这里,你将获取神秘的力量,推开数据之门!
总阅读32
粉丝0
内容181