大数跨境
0
0

【十分钟 机器学习 系列课程】 讲义(一):统计学习方法的定义与分类

【十分钟  机器学习  系列课程】 讲义(一):统计学习方法的定义与分类 简博士数据分析吧
2021-02-25
2
导读:本课程基于李航老师第2版的《统计学习方法》



内容提要:

*  初识统计学习方法

*  统计学习方法的分类

点击蓝字 |关注我们

统计学习的概念

Concept.

统计学习看起来是一个很数学很理论化的词语,但其实它已应用在生活中的众多领域,比如人工智能、模式识别、数据挖掘、自然语言处理、语音处理、计算视觉、信息检索、生物信息等等。


对于这些词语小伙伴们可能会觉得十分陌生,和我们有什么关系吗?



我想大家一定对这个界面一定很熟悉,有啥不知道的问度娘。


这里的搜索引擎百度就涉及到信息检索的内容,还有现在各国家都在研究的人工智能,也就是我们说的AI,也是一个热门话题,咱们今天要讲的统计学习方法恰好就是这些应用的核心技术。


统计学习这个网红小哥哥,他还有个英文名:Statistical Machine Learning。从这个英文名就看得出来,统计学习是离不开机器 Machine 的了。所以,统计学习是以计算机和网络作为平台。


他所研究对象就是数据。数据自然是多种多样的,包括了计算机和网络中的数字、图像、音频、视频等等。现在,我们正处于一个信息大爆炸的时代,也就是会面临着海量的数据。假设同类的数据具有一定的统计规律,那么,就可以利用概率统计方法对其处理,从而达到一个对数据分析和预测的目的。


要实现这个目的,需要构建统计模型,也就是要以方法为中心。整个实验过程中我们需要概率学、统计学的知识,还要懂得计算理论,掌握最优化理论等等。这就是我们说的多领域交叉,形成了一个具有独立理论体系的学科,也就是统计学习。


  •  以计算机和网络为平台 

  •  以数据为研究对象 

  •  以预测和分析数据为目的 

  •  以方法为中心 

  •  是多领域交叉的学科

简而言之,统计学习实现了一个从已知到未知的过程,利用已知数据和各种学科理论来对未知的新数据进行一个预测和分析。


就如同,对宇宙的探索,也是一个从已知到未知的过程。人类从没停下探索宇宙的脚步,从伽利略拿起望远镜观察星空,到现在的探月工程、火星探索......

统计学习的步骤

Procedures



第一步是要得到一个有限的训练数据集合,也就是用来训练模型的。接下来,确定学习模型的集合,这个集合称之为假设空间。然后,选择模型,而选择模型需要一定的评价准则,这就是第三步中确定模型选择的准则,我们称之为策略。第四步是实现求解最优模型的算法,也就是根据第三步的策略,通过算法实现模型的选择。最后,通过学习方法也就是第2-4步,选择出一个最优模型,再将用以预测的数据代入到最优模型中,进行一个预测和分析。


这里注意一下,第二步中的模型,第三步里的策略,还有第四步的算法,是统计学习的三要素,这三个要素一起构成了学习系统。


为了更直观的表述统计学习方法的步骤,给大家看一个流程图。首先给定一个训练集,这里面假设包含N个样本,然后放入到学习系统里面,学习系统就包含了模型、策略和算法,然后通过学习系统对于训练集中信息的不断学习,得到了一个最优模型,也就是对应了之前第五步。最后,输入一个新的实例,代入到最优模型中,通过预测系统得到了一个新的输出,也就是对于新数据进行的预测和分析。这就是统计学习方法的一个大概步骤。


统计学习方法的分类

Classification


统计学习方法可以通过多个角度来进行分类,基本分类,包括监督学习,无监督学习,强化学习。当然有时还包括半监督学习和主动学习,关于这里的基本分类,我在下一篇会进行一个详细的讲解,所以此处就不赘述了。


下面看一下,从模型角度来进行分类,可以分为概率模型与非概率模型,线性模型与非线性模型,参数化模型与非参数化模型。


关于概率模型与非概率模型,概率模型就是用条件概率分布的形式表达的模型f(Y|X),而非概率模型,则是用函数形式表达的 y=f(x)。常见的决策树、朴素贝叶斯都属于概率模型,而感知机、支持向量机、神经网络,这些就属于非概率模型了。


后面这两种也很好理解。关于线性模型与非线性模型,如果模型函数是线性的,那么就是线性模型,反之,是非线性模型。参数化模型,就是说模型的参数维度是固定的,可以由有限为的参数来刻画。那么非参数化模型就对应着参数维度不固定,所以参数化模型它更适用于简单问题,而非参数化模型,更适用于比较复杂的现实问题。


从算法的角度来分类,分为在线学习和批量学习。在线学习也就是大家熟知的Online Learning。每次接受一个样本,然后预测学习模型,之后不断重复这个步骤。批量学习就是Batch Learning,一次接受所有的数据,然后学习模型进行预测。


这里提问一个小问题:当数据无法及时储存或者随时间动态变化的时候,也就是面对实时数据的时候,该选择哪种学习方式呢?


是的。这里应该选择在线学习,因为我们需要及时对数据进行处理,也就是每次接受一个样本预测学习模型,然后不断重复更新数据。


最后我们看一下按技巧分类,按技巧它分为贝叶斯学习和核方法,贝叶斯学习就是基于贝叶斯定理的一个学习方法,而核方法则是基于核函数的。


好啦,咱们第一期的讲义就到这里啦,以下是咱们相应视频课程的链接:https://www.bilibili.com/video/BV1No4y1o7ac


欢迎大家关注简博士的B站和公众号,在公众号私信“入群”,可以与小伙伴们一起讨论问题哦。


扫码关注我们

微信号|Dr_Janneil

B站|简博士



【声明】内容源于网络
0
0
简博士数据分析吧
信息时代最不缺的是什么?数据!最缺的是什么?数据分析的思维!在这里,你将获取神秘的力量,推开数据之门!
内容 181
粉丝 0
简博士数据分析吧 信息时代最不缺的是什么?数据!最缺的是什么?数据分析的思维!在这里,你将获取神秘的力量,推开数据之门!
总阅读42
粉丝0
内容181