大数跨境
0
0

数据挖掘知多少?常用的数据挖掘方法有哪些?

数据挖掘知多少?常用的数据挖掘方法有哪些? 数据分析之渔
2021-01-28
0
关注我们
更多精彩等你发现!



什么是数据挖掘
  • 数据挖掘是从大量数据中自动发现隐含的信息和知识的过程,属于主动分析方法,不需要分析者的先验假设,可以发现未知的知识


  • 常用的分析方法包括 分类、聚类、关联分析、数值预测、序列分析、社会网络分析等


  • 数据挖掘融合了多个学科:统计学、可视化、其他学科、算法、机器学习、数据据库系统


数据挖掘的流程
  • 第一阶段 :了解应用领域

  • 第二阶段 :创建目标数据集

  • 第三阶段 :选择数据,数据清洗和预处理,数据压缩和变换

  • 第四阶段 :选择数据挖掘的技术、功能和合适的算法,进行数据挖掘

  • 第五阶段 :寻找感兴趣的模式

  • 第六阶段 :模式评估

  • 第七阶段 :知识表达



在何种数据上进行挖掘
数据是对事物描述的符号(并非只有数值型数据才叫数据),在计算机科学中,数据是数字、文字、图像、声音等可以输入到计算机被识别的符号;
数据的来源通常有以下这些:
  • 用户生成数据
  • 关系数据库
  • 数据仓库
  • 事务数据库
  • 高级数据库系统和信息库
  • 空间数据库
  • 时间数据库和时间序列数据库
  • 流数据
  • 多媒体数据库
  • 面向对象数据库和对象-关系数据库
  • 异种数据库和遗产数据库
  • 文本数据库



数据挖掘的方法
  • 分类(classification)是通过对具有类别的对象的数据集进行学习,概括其主要特征,构建分类模型,根据该模型预测对象类别的一种数据挖掘和机器学习技术


  • 聚类(clustering)是依据物以类聚的原理,将没有类别的对象根据对象的特征自动聚集成不同簇的过程,使得属于同一个簇的对象之间非常相似,属于不同簇的对象之间不相似,其典型应用使客户分群,根据客户特征把客聚成不同的客户群


  • 关联分析:发现数据之间的规则;用于购物篮分析,最早用于分析超市中顾客一次购买的物品之间的关联性


  • 数值预测:数值预测用于预测连续变量的取值;常用的预测方法是回归分析;例如根据客户个人特征,如年龄、工作类型、受教育程度、婚姻状况等,来预测其每月的消费额度


  • 异常点挖掘:孤立点分析(outlier analysis);一些与数据一般特点不一致的孤立点;例如信用卡客户欺诈检测


  • 序列分析:序列分析是对序列数据库进行分析,从中挖掘出有意义模式的技术;序列模式(sequential pattern)的发现属于序列分析,它是从序列数据库中发现的一种有序模式


  • 社会网络分析:社会网络(social network)是由个人或组织及其之间的关系构成的网络


  • 社会网络分析(social network analysis)是对社会网络的结构和属性进行分析,以发现其中的局部或全局特点,发现其中有影响力的个人或组织,发现网络的动态变化规律等



数据挖掘的应用


分为:描述性数据挖掘;预测性(探索性)数据挖掘

  • 数据分析和决策支持

    市场分析和管理
    目标市场,客户关系管理(CRM),市场占有量分析,交叉销售,市场分割;
    风险分析和管理:
    风险预测,客户保持,保险业的改良,质量控制,竞争分析
    欺骗检测和异常模式的检测(孤立点)


  • 其他的应用

    文本挖掘(新闻,电子邮件,文档)和 WEB 挖掘

    流数据挖掘;

    DNA 和生物数据分析



python中常用的数据挖掘基础包

  • numpy :python中科学计算的基本包

  • pandas :提供丰富的数据结构和功能,pandas基于两种数据类型:series(一维数据类型)和dataframe(二维的表结构)

  • matplotlib :可视化基础库可绘制2D和3D图形

  • statsmodels :是python的统计建模和计量经济学工具包,包括一些描述统计、统计模型估计和推断。主要功能包括:Line regression models:线性回归模型 Gneralized linear models:一般线型模型 鲁棒线性模型 离散选择模型 方差分析模型 时间序列分析 非参检验 各种统计检验 读取各种格式的数据 绘图功能

  • Scipy :是基于numpy构建在科学计算中处理多个不同标准问题域的包的集合

  • scikit-learn :python的开源机器学习模块,建立在Numpy,SciPy 和 matplotlib模块之上,能实现大量的机器学习算法



end

扫码关注最新动态

数据分析之渔



【声明】内容源于网络
0
0
数据分析之渔
大数据、商业数据分析、AI科技等资讯分享,联系作者请注明合作项
内容 69
粉丝 0
数据分析之渔 大数据、商业数据分析、AI科技等资讯分享,联系作者请注明合作项
总阅读16
粉丝0
内容69