数据挖掘是从大量数据中自动发现隐含的信息和知识的过程,属于主动分析方法,不需要分析者的先验假设,可以发现未知的知识
常用的分析方法包括 分类、聚类、关联分析、数值预测、序列分析、社会网络分析等
数据挖掘融合了多个学科:统计学、可视化、其他学科、算法、机器学习、数据据库系统
第一阶段 :了解应用领域
第二阶段 :创建目标数据集
第三阶段 :选择数据,数据清洗和预处理,数据压缩和变换
第四阶段 :选择数据挖掘的技术、功能和合适的算法,进行数据挖掘
第五阶段 :寻找感兴趣的模式
第六阶段 :模式评估
第七阶段 :知识表达
-
用户生成数据 -
关系数据库 -
数据仓库 -
事务数据库 -
高级数据库系统和信息库 -
空间数据库 -
时间数据库和时间序列数据库 -
流数据 -
多媒体数据库 -
面向对象数据库和对象-关系数据库 -
异种数据库和遗产数据库 -
文本数据库
-
分类(classification)是通过对具有类别的对象的数据集进行学习,概括其主要特征,构建分类模型,根据该模型预测对象类别的一种数据挖掘和机器学习技术 -
聚类(clustering)是依据物以类聚的原理,将没有类别的对象根据对象的特征自动聚集成不同簇的过程,使得属于同一个簇的对象之间非常相似,属于不同簇的对象之间不相似,其典型应用使客户分群,根据客户特征把客聚成不同的客户群 -
关联分析:发现数据之间的规则;用于购物篮分析,最早用于分析超市中顾客一次购买的物品之间的关联性 -
数值预测:数值预测用于预测连续变量的取值;常用的预测方法是回归分析;例如根据客户个人特征,如年龄、工作类型、受教育程度、婚姻状况等,来预测其每月的消费额度 异常点挖掘:孤立点分析(outlier analysis);一些与数据一般特点不一致的孤立点;例如信用卡客户欺诈检测
-
序列分析:序列分析是对序列数据库进行分析,从中挖掘出有意义模式的技术;序列模式(sequential pattern)的发现属于序列分析,它是从序列数据库中发现的一种有序模式 -
社会网络分析:社会网络(social network)是由个人或组织及其之间的关系构成的网络 -
社会网络分析(social network analysis)是对社会网络的结构和属性进行分析,以发现其中的局部或全局特点,发现其中有影响力的个人或组织,发现网络的动态变化规律等
分为:描述性数据挖掘;预测性(探索性)数据挖掘
数据分析和决策支持
市场分析和管理 目标市场,客户关系管理(CRM),市场占有量分析,交叉销售,市场分割; 风险分析和管理: 风险预测,客户保持,保险业的改良,质量控制,竞争分析 欺骗检测和异常模式的检测(孤立点) -
其他的应用 文本挖掘(新闻,电子邮件,文档)和 WEB 挖掘
流数据挖掘;
DNA 和生物数据分析
numpy :python中科学计算的基本包
pandas :提供丰富的数据结构和功能,pandas基于两种数据类型:series(一维数据类型)和dataframe(二维的表结构)
matplotlib :可视化基础库可绘制2D和3D图形
statsmodels :是python的统计建模和计量经济学工具包,包括一些描述统计、统计模型估计和推断。主要功能包括:Line regression models:线性回归模型 Gneralized linear models:一般线型模型 鲁棒线性模型 离散选择模型 方差分析模型 时间序列分析 非参检验 各种统计检验 读取各种格式的数据 绘图功能
Scipy :是基于numpy构建在科学计算中处理多个不同标准问题域的包的集合
scikit-learn :python的开源机器学习模块,建立在Numpy,SciPy 和 matplotlib模块之上,能实现大量的机器学习算法
end
扫码关注最新动态
数据分析之渔

