干货 | 对于机器学习，你必须了解的！- 大数跨境

首页

干货 | 对于机器学习，你必须了解的！

智搜Giiso

2017-10-25

导读：这里有关机器学习每个人都应该了解的东西，速戳！！！

正文是有关机器人学习的基础内容，下面就和小智来一起了解和学习吧！

最近谷歌DeepMind团队的新发现再次刷爆朋友圈，这次的主角阿法元在没有任何指导的情况下，仅仅自学四十天就击败了哥哥阿法狗。消息一出再次震惊世界，人们感叹:机器已经可以通过自学，在极具挑战的领域，达到超人的境地。

阿法元的胜利，无人驾驶的成功，模式识别的突破性进展，人工智能的的飞速发展一次又一次地挑动着我们的神经。作为人工智能的核心，机器学习也在人工智能的大步发展中备受瞩目，光辉无限。

如今，机器学习的应用已遍及人工智能的各个分支，如专家系统、自动推理、自然语言理解、模式识别、计算机视觉、智能机器人等领域。

但也许我们不曾想到的事机器学习乃至人工智能的起源，是对人本身的意识、自我、心灵等哲学问题的探索。而在发展的过程中，更是融合了统计学、神经科学、信息论、控制论、计算复杂性理论等学科的知识。

机器学习的定义

众所周知，计算机为我们服务的传统方法是通过编程，我们将算法编程输入计算机，从而教会其如何处理问题。对于图一加法，我们输入算法，计算机就会比人类更加精准地得到结果；但这种算法是有局限性的，比如我们如何设计算法让计算机识别图1中猫的照片呢？

图1 计算机处理不同问题难度不同

而这就是机器学习的威力所在，它从人类的学习行为出发,研究用一些基本的方法如归纳去认识客观世界,获取各种知识和技能,并且借助计算机技术建立各种学习模型,从而为计算机系统赋予学习能力。通俗来讲，我们不需要为计算机开发算法，而是通过样本来训练计算机，使其学习算法本身。

机器学习的发展

机器学习是人工智能研究较为年轻的分支，它的发展过程大体上分为四个时期:

第一阶段是50年代中叶到60年代中叶，属于热烈时期,所研究的是“无知”学习。该阶段的工作很大程度上受启发于生物学的研究，不需要先前知识。

第二阶段是在60年代中叶到70年代中叶，被称为机器学习的冷静时期，机器学习的发展步伐几乎处于停滞状态。本阶段只能学习单一概念，而且未能投入实际应用。此外，神经网络学习机因理论缺陷未能达到预期效果而转入低潮。

第三阶段从70年代中叶到80年代中叶，称为复兴时期。在此期间，人们从学习单个概念扩展到学习多个概念，探索不同的学习策略和各种学习方法。这个时期，机器学习在大量的时间应用中回到人们的视线，又慢慢复苏。

第四阶段是从90年代中叶开始到21世纪初，该时期被称为黄金时期。主要标志是学界涌现出一批重要的学术成果，比如基于统计学习的支持向量机、随机森林等集成分类方法，贝叶斯方法、基于正则化理论的稀疏学习模型等多种理论，这些成果奠定了机器学习的理论基础和框架。

机器学习的经典算法

机器学习发展至今，已经诞生了很多经典的算法，具体有：回归算法、神经网络、支持向量机、聚类算法、推荐算法、贝叶斯算法以及决策树算法等等。每一种算法都在各自的领域有非常广泛的应用，限于篇幅，本文着重介绍前五种。

回归算法

回归算法有两个子类：线性回归和逻辑回归。

线性回归就是如何拟合出一条直线最佳匹配所有的数据,一般使用“最小二乘法”来求解。最小二乘法将最优问题转化为求函数极值问题。

逻辑回归与线性回归相类似，但两者处理的问题不同。线性回归处理的是数值问题，最后的结果是数字，例如房价。而逻辑回归属于分类算法，即预测结果是离散的分类，直观上画出了一条分类线。例如判断这封邮件是否是垃圾邮件，肿瘤是否是恶性等。

图2 关于肿瘤的逻辑回归分析

如图2，假设有一组肿瘤患者的数据，这些患者的肿瘤中有些是良性的(蓝圈)，有些是恶性的(红叉)。这里红蓝色可以被称作数据的“标签”，同时每个数据包括两个“特征”：患者的年龄与肿瘤的大小。我们将这两个特征与标签映射到这个二维空间上，形成了上图的数据。根据红蓝点我们训练出了一个逻辑回归模型，也就是图中的分类线。这时出现一个绿色的点，根据其出现在分类线的右侧，因此我们判断它属于恶性肿瘤。

但上述两种算法拟合出的基本上都是线性，当两个种类之间不是线性时，逻辑回归的表达能力就稍显不足。而接下来介绍的两种算法是机器学习中极其重要的算法，它们均可以拟合出非线性的分类线。

神经网络

神经网络的诞生起源于对大脑工作机理的研究。早期生物界学者们使用神经网络来模拟大脑。神经网络的学习机理简单来说，就是分解与整合。

下图是一个简单的神经网络逻辑架构。网络中有三层：输入层负责接收信号，隐藏层负责对数据的分解与处理，输出层输出整合到的结果。每层中的一个圆代表一个处理单元，可以认为是模拟了一个神经元，若干个处理单元组成了一个层，若干个层再组成了一个网络，也就是"神经网络"。

图3 简单神经网络结构

在神经网络中，每个处理单元事实上就是一个逻辑回归模型，逻辑回归模型接收上层的输入，把模型的预测结果作为输出传输到下一个层次。通过这样的过程，神经网络可以完成非常复杂的非线性分类。

进入90年代，神经网络的发展进入了一个瓶颈期。其主要原因是尽管有BP算法的加速，神经网络的训练过程仍然很困难。因此90年代后期支持向量机(SVM)算法取代了神经网络的地位。

支持向量机

支持向量机算法是诞生于统计学习界，同时在机器学习界大放光彩的经典算法。其从某种意义上来说是逻辑回归算法的强化：通过给予逻辑回归算法更严格的优化条件，通过跟高斯“核”的结合，支持向量机可以表达出非常复杂的分类界线，从而达成很好的的分类效果。“核”事实上就是一种特殊的函数，最典型的特征就是可以将低维的空间映射到高维的空间。

图4 二维空间图像

聚类算法

聚类分析是指通过某些度量或者与其他对象的关系将物理或者抽象对象的集合进行分组，划分为由类似的对象组成的多个群组的分析过程。划分后的群组满足同组的对象间具有最大相似性，不同组的对象间具有最大相异性。在这种算法中，训练数据都是不含标签的，而算法的目的则是通过训练，推测出这些数据的标签，因此它属于无监督算法。

推荐算法

推荐算法是目前业界非常火的一种算法，在电商界，如亚马逊，天猫，京东等得了广泛的运用。推荐算法的主要特征就是可以自动向用户推荐他们最感兴趣的东西，从而增加购买率，提升效益。

上述算法根据训练数据的有无，可以将其分成：监督学习算法、无监督学习算法和特殊算法。其中监督算法包括回归算法、神经网络和支持向量机；无监督算法包括聚类算法和降维算法；特殊算法为推荐算法。

【声明】内容源于网络

智搜Giiso

智搜是一家以深度学习和智能语义为核心技术的国家级高新技术企业。公司致力于为内容产业的生产及传播提供完整的智能化解决方案，为内容行业提升效率、稳定质量、构建市场竞争壁垒等核心诉求提供智能技术服务。

内容 146

粉丝 0

智搜Giiso 智搜是一家以深度学习和智能语义为核心技术的国家级高新技术企业。公司致力于为内容产业的生产及传播提供完整的智能化解决方案，为内容行业提升效率、稳定质量、构建市场竞争壁垒等核心诉求提供智能技术服务。

总阅读87

粉丝0

内容146