大数跨境
0
0

泰坦尼克号沉船之后,谁能获救?

泰坦尼克号沉船之后,谁能获救? 亿信华辰
2017-12-05
2
导读:豌豆DM通过分类分析挖掘出哪些乘客获救概率更大?
导读

从对与错、好与坏的简单分类,到复杂的生物学中的界门纲目科属种,人类对客观世界的认识离不开分类, 通过将有共性的事物归到一类,区别不同的事物, 使得对大量的繁杂事物条理化和系统化。 


数据挖掘的分类分析


但随着事物复杂程度的提升,人类凭借经验和专业知识已经很难进行准确分类了,因此需要使用数学工具进行更精确地定量分析。 


数据挖掘的分类分析就是通过事物特征的定量分析,形成能够进行分类预测的分类模型,显然,类别的取值是离散值。要注意的是分类模型作出的分类预测不是归纳出的新类,而是预先定义好的目标类。


用数学化的语言描述: 分类任务就是通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y。


分类分析的作用


现实商业活动中的许多问题都能抽象成分类问题,例如客户管理, 在当前的市场营销行为中很重要的一个特点是强调目标客户细分,无论是银行对贷款风险的评估还是营销中的目标客户(或市场)细分,其实都属于分类算法中客户类别分析的范畴,而客户类别分析的功能也正在于此:采用数据挖掘中的分类技术,将客户分成不同的类别,以便于提高企业的决策效率和准确度。 


其他场景如推荐系统, 垃圾邮件过滤, 信用卡分级等等, 都能转化为分类问题。


分类分析的流程


分类分析遵循数据挖掘一般的流程, 上周我们将泰坦尼克号数据集进行了预处理(处理过程请查看上期文章《科学的数据预处理让数据挖掘更准确》),现在可以直接利用这份处理好的数据对乘客是否获救进行分析, 得到乘客是否获救的预测模型。



1. 选择数据集

选择的数据集一定含有离散型的目标类,这里是否获救作为目标类, 1表示获救, 0表示没有获救。



2. 特征选取

选取和目标类有关的特征, 去掉明显与目标无关的特征, 乘客ID, 乘客姓名, 只是记录标识, 与目标没有相关性, 船票信息只是文本信息, 也与目标无关, 仍然存在无法判断与目标是否相关的其他特征, 可以都作为训练输入特征, 因此选取年龄, 客舱,登船港口,乘客等级,性别,堂兄妹个数,父母小孩个数,票价作为输入特征。



3. 选择算法训练模型

分类算法多种多样, 都有各自的特点, 可以根据需求场景选择最合适的算法并调整参数,点击训练模型即可开始计算,得到模型。 这里选择决策树算法, 算法参数设置为:



得到决策树模型:



如图,黄色表示获救, 蓝色表示死亡, 得到的这个决策树模型和我们所知道的事实相符, 救生船登船资格是妇女和儿童优先。


4. 模型评估与对比

模型评估需要一个有实际类别的测试集, 这里我们分割出30%的数据作为测试集。 用得到的模型进行分类预测, 通过对比预测结果和实际结果来评估模型的好坏, 评估指标有很多,例如正确率, 召回率, 提升率, ROC曲线……分类模型都使用相同的指标进行评估,这样可以和其他算法训练出的模型进行对比,选择表现最好的模型。 


这里我们使用逻辑回归算法也得到了一个模型, 得到了回归方程的系数:



通过比较评估结果:

ROC曲线比较:曲线下面积最大的模型最优。



混淆矩阵比较, 列出目标类实际值和预测值的数量。



模型总体指标比较,误差类指标都是越小越好, 其他都是越大越好。



模型每一类评估指标比较, 在目标类数据不平衡时, 这些指标比总体指标更能衡量模型的性能。



经过对比, 我们得到如下结论:


5. 模型应用

分类模型的应用即进行分类预测, 我们所得到的模型就相当于一个函数, 载入相关数据,就能返回预测结果。要注意的是待预测数据必须含有训练时选取的特征, 并设置好对应关系,如下图:



参数设置完毕后, 模型就能自动进行分类预测, 结果如下:



这样我们就能根据应用结果, 进行决策了。 


常用分类算法

WonderDM支持常用的几种分类算法, 看到逻辑回归不要惊讶, 逻辑回归解决的是分类问题。 还有许多其他复杂的算法, WonderDM都可以扩展, 例如随机森林, 支持向量机, 贝叶斯网络, 还有各种集成算法等等, 没有最好的算法, 只有最合适的算法。 



小  结

在实际场景中,进行分类分析的关键其实是个转换问题, 如何将具体业务问题抽象成分类问题。就好比我们解数学中的应用题, 准备好了数据, 确定好目标类,就相当于列好了含有未知数的方程,剩下的都是解方程的问题, 而这部分都有程序来帮忙解决。因此,使用WonderDM进行分类分析并不是一件复杂的事情。 



【声明】内容源于网络
0
0
亿信华辰
领先的数据分析和数据治理软件厂商 | 中国数据治理解决方案市场第一 | 数据资产管理标杆厂商 | Data Agent | 数据中台
内容 886
粉丝 0
亿信华辰 领先的数据分析和数据治理软件厂商 | 中国数据治理解决方案市场第一 | 数据资产管理标杆厂商 | Data Agent | 数据中台
总阅读2.1k
粉丝0
内容886