大数跨境
0
0

种猪生产大数据分析方法之数据预处理篇

种猪生产大数据分析方法之数据预处理篇 武汉泛德信息技术有限公司
2021-07-01
1
导读:在数据分析前一般都需要先进行预处理。常见的数据预处理方法主要包括数据清洗、数据集成、数据转化和数据规约。

内容选取自彭健教授所著

《母猪营养代谢与精准营养》第十章。

原创内容,欢迎转发,务必注明信息来源。



在做数据分析时,极易受到不完整的、不一致的(包含代码或者名称的差异)和极易受到噪声(错误或异常值)侵扰的现象。因为数据库太大,而且数据集经常来自多个异种数据源,低质量的数据将导致低质量的挖掘结果。因此,在数据分析前一般都需要先进行预处理。常见的数据预处理方法主要包括数据清洗、数据集成、数据转化和数据规约。



一、数据清洗


数据清洗(Data cleaning)是对目标数据进行重新审查、处理及校验的过程,其目的是发现并科学处理其中的“脏数据”(Dirty data),即无效值、缺失值、异常数据和重复数据(Jönsson和Wohlin,2004)。

数据清洗包括缺失值处理、去除重复记录和噪声数据处理(彭高辉和王志良,2008)。目前现有的缺失值处理方法主要有三类,即删除元组(Tuple)、数据补齐和不处理。

元组是关系数据库中的基本概念,表中的每行称为一个元组。删除元组就是指将缺失数据的数据元组直接删除,使数据集中不含缺失数据,从而形成一个完整的数据集。

缺失值处理的第二类方法是数据补齐,它又包括平均值填充法、K最近邻法和回归法。平均值填充法是指将数据集中的数据属性分为数值属性和非数值属性,若空缺值是数值型,则根据该属性所在的其他所有对象的平均值来填充该空缺值;若空缺值是非数值型,则根据统计学中的众数原理,取次数最多的值来填充该空缺值。K最近邻法是先根据欧式距离或相关分析来确定距离缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。回归法则是基于完整的数据集建立回归模型,对于空缺的数据,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充。

缺失值处理的第三类方法是不处理,即忽略缺失数据,也不对缺失数据进行填充,直接在具有缺失数据的数据集上进行数据挖掘与分析。

数据清洗第二个内容是重复数据的清洗。最常用的重复数据清洗方法包括基本临近有序法(Basic sorted neighborhood method)和聚类算法两种。基本临近有序法的基本思路是为每一个数据创建一个键值(一种类似文件系统的实际配置信息和数据),然后根据键值将数据从小到大排序,接着对临近的数据项进行比较,根据相似度函数,检测出重复数据(Hernández等,1998)。而聚类算法是指将物理的或抽象的对象的集合分成相似的对象集的过程,最终的结果是同一个簇中的对象具有较高的相似性,而不同簇之间的对象则具有较大的差异性。其中基于可调密度的改进聚类算法可以通过迭代过程完成对重复数据的检测,其大致过程包括对数据集进行聚类,然后通过计算同一个类中的数据相似度来判断其是否为近似重复数据,并调整邻域半径来修改其密度参数,不断迭代,直到类中的数据均为近似重复数据为止,以此来完成对重复数据的检测。

数据清洗第三个内容是清洗噪声数据。噪声指的是数据中存在的随机误差。常用的消除噪声数据的方法是分箱法(Binning method)。分箱法是一种将连续型数据分成小间隔的离散化方法,每个小间隔的标号可以替代实际的数据值以此来达到离散化数据的目的(张麒增和戴翰波,2019)。在实际处理过程中,分箱法又可细化为按箱平均值平滑和按箱边界平滑两类。前者是指把箱中所有值平均,然后使用箱的平均值代替箱中所有数据;而后者则将箱中的最大和最小值被视为箱边界,箱中每一个值被最近的箱边界替换。




二、数据集成


数据集成是指将多个数据集按照应用要求进行整理、转换与加工的集成过程。一般而言,数据集成包括三方面内容:一是模式集成,主要是对数据库中元数据进行模式识别;二是冗余数据的集成,即将无用数据删除,保留有效数据;三是对数值冲突的检测与处理。在数据集成过程中,需要根据实际要求有针对性的对数据进行筛选,保留有价值的数据,将不同类型的数据整合在一起,为数据分析打好基础。




三、数据转化


数据转化是采用线性或非线性的数学变换方式将数据转换或统一成适合于挖掘的形式。常见的数据变换方法包括(1)数据平滑,是指去通过分箱、回归和聚类法去掉数据中的噪声;(2)数据聚集,是指对数据进行汇总或聚集;(3)数据概化,是指使用概念分层减少数据复杂度,用高层概念替换低层或“原始”数据;(4)数据规范化,是指将数据按比例缩放,使其落入特定区域(Famili等,1997)。




四、数据规约


数据归约是在对发现任务和数据本身内容理解的基础上,寻找依赖于发现目标的表达数据的有用特征以缩减数据模型,从而在尽可能保持数据原貌的前提下最大限度地精简数据量,使得数据挖掘更高效。

数据归约常用的方法包括4种:(1)维归约,是指通过删除不相关的属性(或维)减少数据量。通常采用属性子集选择方法找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性的原分布;(2)数据压缩,是应用数据编码或变换得到原数据的归约或压缩表示。数据压缩分为无损压缩和有损压缩,比较有效的有损数据压缩方法是小波变换和主成分分析;(3)数值归约,主要是通过变换数据的形式来得到可以保持原有数据完整性的相对较小的数据集,从而使数据挖掘变得可行。使用较多的数值归约技术包括对数线性模型、直方图、聚类和抽样等方法;(4)数据离散化,是指将连续的属性值划分为离散的几个区间,离散的属性值划分为不同的几个取值范围,从而减少属性值的数量,提高属性值的内涵,方便数据挖掘的过程以及数据挖掘结果的可视化展示(Famili等,1997)。






准确的数据是获得正确结果的基础,本期公众号重点围绕数据清洗、数据集成、数据转化和数据规约四个方面来讲述,下期我们将为大家介绍一下数据分析中经常用到的分析软件,敬请大家期待。




微信号:Friend_IT

~
关注泛德信息公众号,下期更精彩!
【声明】内容源于网络
0
0
武汉泛德信息技术有限公司
武汉泛德信息技术有限公司,2021年02月05日成立,经营范围包括一般项目:信息技术咨询服务;大数据服务;软件开发;数据处理和存储支持服务;数据处理服务;人工智能理论与算法软件开发;与农业生产经营有关的技术、信息、设施建设运营等服务
内容 63
粉丝 0
武汉泛德信息技术有限公司 武汉泛德信息技术有限公司,2021年02月05日成立,经营范围包括一般项目:信息技术咨询服务;大数据服务;软件开发;数据处理和存储支持服务;数据处理服务;人工智能理论与算法软件开发;与农业生产经营有关的技术、信息、设施建设运营等服务
总阅读178
粉丝0
内容63