大数跨境
0
0

人工智能流行算法,你知道几个?

人工智能流行算法,你知道几个? 正方股份
2022-01-26
0
导读:看完这一篇,你可能会恍然大悟地发现原来人工智能算法有在中学就学过的,生活中也很常见,我们一起来看看吧。

AI 

人工智能

流行算法


如今社会AI人工智能已随处可见,比如人手一支的智能手机往往都有指纹或人脸识别,就是用人工智能技术实现的;疫情当下常见的无人体温检测仪、电话咨询时候的机器人自动语音回复、垃圾邮件过滤等都是依靠人工智能。

人工智能技术看似高深,但也是从基础原理开始的,线性回归、逻辑回归、决策树、随机森林、降维、神经网络十大流行算法很早就被发现、应用。

正方的PAI-O大数据智能剩余油饱和度预测技术就是基于决策树系列的算法,引入堆叠算法,并应用了独创QGD算法,实现对数据升降维,确定小层相关干扰因子使分层注入水量劈分更精准。

点击图片了解技术详情

正方电参转功图是利用深度森林计算,能够提升拟合准确度10%以上。深度森林相比于传统的决策树和随机森林,具备更强的迭代性、指向性,在数据样本足够丰富的时候能以模糊计算的方式擦除传统电参转功图公式中的不准确因素。

▲ 点击图片了解技术详情

看完这一篇,你可能会恍然大悟地发现原来人工智能算法有在中学就学过的,生活中也很常见,我们一起来看看吧。



一、线性回归 


线性回归(Linear Regression)可能是最流行的机器学习算法,是工业界使用最广泛的模型。比如预测明年的房价涨幅、下一季度新产品的销量等等。

很多初学者都会把“线性”简单地理解成预测的模型是一条线,或者在分类任务中用一条线把数据集分开。这种理解方式可以帮助我们在很短时间内记住概念,然而线性模型也可以通过基函数的方式画出曲线分类线,“线性”限制的是parameter(参数),而不是feature(自变量)。

先从定义看起:线性回归分析(Linear Regression Analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。本质上说,这种变量间依赖关系就是一种线性相关性,线性相关性是线性回归模型的理论基础。

线性回归要做的是就是找到一个数学公式能相对较完美地把所有自变量组合(加减乘除)起来,得到的结果和目标接近。所以线性的定义是:自变量之间只存在线性关系,即自变量只能通过相加、或者相减进行组合。



二、逻辑回归


逻辑回归(Logistic regression)与线性回归类似,但逻辑回归的结果只能有两个的值。如果说线性回归是在预测一个开放的数值,那逻辑回归更像是做一道是或不是的判断题。

逻辑函数中Y值的范围从 0 到 1,是一个概率值。逻辑函数通常呈S 型,曲线把图表分成两块区域,因此适合用于分类任务。

比如上面的逻辑回归曲线图,显示了通过考试的概率与学习时间的关系,可以用来预测是否可以通过考试。

逻辑回归经常被电商或者外卖平台用来预测用户对品类的购买偏好。



三、决策树


决策树是一种十分常用的分类方法,需要监管学习(有教师的Supervised Learning),监管学习就是给出一堆样本,每个样本都有一组属性和一个分类结果,也就是分类结果已知,那么通过学习这些样本得到一个决策树,这个决策树能够对新的数据给出正确的分类。

以上就是一个决策树的图例,每一个有分叉的圈称为节点。在每个节点上,根据可用的特征询问有关数据的问题。左右分支代表可能的答案。最终节点(即叶节点)对应于一个预测值。通过自顶向下的方法确定每个特征的重要性,节点越高,属性越重要。



四、朴素贝叶斯


朴素贝叶斯(Naive Bayes)是基于贝叶斯定理,即两个条件关系之间。它测量每个类的概率,每个类的条件概率给出 x 的值。这个算法用于分类问题,得到一个二进制“是 / 非”的结果。看看下面的方程式。

朴素贝叶斯分类器是一种流行的统计技术,经典应用是过滤垃圾邮件。



五、支持向量机


支持向量机(Support Vector Machine,SVM)是一种用于分类问题的监督算法。支持向量机试图在数据点之间绘制两条线,它们之间的边距最大。为此,我们将数据项绘制为 n 维空间中的点,其中,n 是输入特征的数量。在此基础上,支持向量机找到一个最优边界,称为超平面(Hyperplane),它通过类标签将可能的输出进行最佳分离。

超平面与最近的类点之间的距离称为边距。最优超平面具有最大的边界,可以对点进行分类,从而使最近的数据点与这两个类之间的距离最大化。

所以支持向量机想要解决的问题也就是如何把一堆数据做出区隔,它的主要应用场景有字符识别、面部识别、文本分类等各种识别。



六、K- 最近邻算法(KNN)


K- 最近邻算法(K-Nearest Neighbors,KNN)非常简单。KNN 通过在整个训练集中搜索 K 个最相似的实例,即 K 个邻居,并为所有这些 K 个实例分配一个公共输出变量,来对对象进行分类

K 的选择很关键:较小的值可能会得到大量的噪声和不准确的结果,而较大的值是不可行的。它最常用于分类,但也适用于回归问题。

用于评估实例之间相似性的距离可以是欧几里得距离(Euclidean distance)、曼哈顿距离(Manhattan distance)或明氏距离(Minkowski distance)。欧几里得距离是两点之间的普通直线距离。它实际上是点坐标之差平方和的平方根。

KNN分类示例

KNN理论简单,容易实现,可用于文本分类、模式识别、聚类分析等。



七、K-均值


K-均值(K-means)是通过对数据集进行分类来聚类的。例如,这个算法可用于根据购买历史将用户分组。它在数据集中找到 K 个聚类。K- 均值用于无监督学习,因此,我们只需使用训练数据 X,以及我们想要识别的聚类数量 K。

该算法根据每个数据点的特征,将每个数据点迭代地分配给 K 个组中的一个组。它为每个 K- 聚类(称为质心)选择 K 个点。基于相似度,将新的数据点添加到具有最近质心的聚类中。这个过程一直持续到质心停止变化为止。

生活中,K-均值在欺诈检测中扮演了重要角色,在汽车、医疗保险和保险欺诈检测领域中广泛应用。



八、随机森林


随机森林(Random Forest)是一种非常流行的集成机器学习算法。这个算法的基本思想是,许多人的意见要比个人的意见更准确。在随机森林中,我们使用决策树集成(参见决策树)。

(a)在训练过程中,每个决策树都是基于训练集的引导样本来构建的。

(b)在分类过程中,输入实例的决定是根据多数投票做出的。

随机森林拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源、保留及流失,也可以用来预测疾病的风险和病患者的易感性。



九、降维


由于我们今天能够捕获的数据量之大,机器学习问题变得更加复杂。这就意味着训练极其缓慢,而且很难找到一个好的解决方案。这一问题,通常被称为“维数灾难”(Curse of dimensionality)。

降维(Dimensionality reduction)试图在不丢失最重要信息的情况下,通过将特定的特征组合成更高层次的特征来解决这个问题。主成分分析(Principal Component Analysis,PCA)是最流行的降维技术。

主成分分析通过将数据集压缩到低维线或超平面 / 子空间来降低数据集的维数。这尽可能地保留了原始数据的显著特征。

可以通过将所有数据点近似到一条直线来实现降维的示例。



十、人工神经网络(ANN)


人工神经网络(Artificial Neural Networks,ANN)可以处理大型复杂的机器学习任务。神经网络本质上是一组带有权值的边和节点组成的相互连接的层,称为神经元。在输入层和输出层之间,我们可以插入多个隐藏层。人工神经网络使用了两个隐藏层。除此之外,还需要处理深度学习。

人工神经网络的工作原理与大脑的结构类似。一组神经元被赋予一个随机权重,以确定神经元如何处理输入数据。通过对输入数据训练神经网络来学习输入和输出之间的关系。在训练阶段,系统可以访问正确的答案。

如果网络不能准确识别输入,系统就会调整权重。经过充分的训练后,它将始终如一地识别出正确的模式。

每个圆形节点表示一个人工神经元,箭头表示从一个人工神经元的输出到另一个人工神经元的输入的连接。图像识别,就是神经网络中的一个著名应用。



- END -


欢迎留言&一键三连

正方股份将定期推送人工智能智慧油田油藏工程软件技能知识专栏,“码”上关注,了解最新油田勘探开发解决方案、人工智能、大数据、Python开发知识等。欢迎业内人士在文章底部留言探讨,点分享、赞和在看,感谢您的“一键三连”!



正方股份


大庆正方软件科技股份有限公司(简称正方股份)创立于2002年,是高新技术企业和黑龙江省双软认证企业,是国内将大数据人工智能技术研发与国内油田主营业务深度融合的信息技术服务公司,从事软件研发、大数据、人工智能、物联网、云应用、技术服务、培训等全序列信息技术服务。


/

/

长按识别二维码

/ 联系方式 /

址:www.dqzfkj.com

电话:0459-5977330

邮箱:wangya@dqzfkj.com

地址:黑龙江省大庆市让胡路区远望大街112号


去分享

点赞

我在看

【声明】内容源于网络
0
0
正方股份
正方股份是国内首家将大数据人工智能技术研发与国内油田主营业务深度融合的高端信息技术服务公司,主营物联网、大数据、人工智能、云应用、软件研发等业务。
内容 32
粉丝 0
正方股份 正方股份是国内首家将大数据人工智能技术研发与国内油田主营业务深度融合的高端信息技术服务公司,主营物联网、大数据、人工智能、云应用、软件研发等业务。
总阅读21
粉丝0
内容32