
内容选取自彭健教授所著
《母猪营养代谢与精准营养》第十章。
原创内容,欢迎转发,务必注明信息来源。
规模化猪场的数据是十分庞大而复杂的,这对数据统计分析的需求及对数据处理能力,尤其是“海量”数据的处理、挖掘及分析能力提出了更高要求。传统的数据统计分析方式统计效率低,统计周期长,而且不够直观清晰,这已远远不能满足实际需求。而数据统计分析软件可将企业越来越庞大的数据运用到数据统计分析软件中,帮助数据分析师在短时间内完成复杂的数据分析计算过程,输出准确的数据分析结果,提高工作效率。基于畜牧科研中软件使用习惯,统计软件篇内容将连续4期重点介绍SAS、SPSS、R语言和Python语言4款软件的基本情况、功能和特点。读者在学习统计分析软件时,可以根据自己的实际要,选择其中的一到两种软件进行学习并使用。前两期已经分别介绍了SAS和SPSS软件,本期主要介绍R语言的相关信息。
目前,我们在做数据分析时面对的数据类型主要包括结构化数据、半结构化数据以及非结构化数据,这三类数据类型占比分别为5%、10%和85%,其中非结构化数据主要包含了多种样式的视频、音频、文本文档、图片以及相关报表等。从统计学的角度来看,许多分析软件最为困难的就是不能对所有类型数据进行分析和挖掘。R语言可以为结构化和半结构化数据提供强大的统计分析和数据处理的功能,例如R语言所具有的Rweibo包和RCurl包等都可以对网络数据和文本进行挖掘,而且也可以对非结构性数据进行相应的分析和处理。
在分析结构化数据时,R语言可以处理向量、矩阵、数据框(与数据集类似)以及列表(各种对象的集合)等多种类型的数据,并且内置了许多统计函数,用这些函数可以方便地解决在统计分析中的概率计算、临界值、分位数以及数学建模等问题。《母猪营养代谢与精准营养》第十章第三节(p334-339)数据分析实例2就是利用R语言对母猪产仔性能进行时间序列建模分析,具体内容后面会有详细介绍,在此不再赘述。
此外,R语言的另一强项是绘图可视化功能,它主要包括三大绘图系统,分别是基础绘图系统(Base Plotting System)、Lattice绘图系统(Lattice Plotting System)和ggplot2绘图系统(ggplotw Plotting System)。基础绘图系统的主要功能包为graphics,它又包括两类,一是低级绘图函数,如创建画布、点、线、多边形等;而是高级绘图函数,如plot(),boxplot(),hist(),density()等。基础绘图系统调用函数会启用一个图形设备并在设备上绘图,适用于绘制2D图。
第一,R是一款开源软件,可以免费下载及使用,函数代码也是公开的,使用者可以通过输入“help()”函数查看这些函数的说明与介绍即可掌握该包的具体使用方法,并且用户可根据需要修改函数,可以更快地理解算法,提高工作效率。除了R之外,目前市场上存在各种挖掘软件,主流的商用挖掘工具如SAS、SPSS等面向通用挖掘问题,功能较为完善,具备较好的性能。但一般都存在可扩展性不强、成本较高等缺点,因此,使用者大多接触及使用的是其盗版软件。然而R因其作为免费资源而更受数据分析者的青睐。
第二,R语言的开放性好。首先,R允许用户使用C语言、Java等开发R里的一些子程序,而这些子程序又可以在R里面直接运行,兼容功能强大,并且用户可以自己开发package,之后提交给R官方,进行测试后若无差错即可发布于网上供全世界的R使用者分享。其次,R语言可通过开放的网络平台整合相关行业的专家学者加入开发工作,大大提高了package的专业性。
第三,R包含多种标准函数。R语言作为一种统计软件,集成了很多经典的数据挖掘及分析方法,对于通用的模型均已完成封装,函数及命令调用简便,运算速度也已经过优化,且有丰富的数据可视化函数,可以简便高效地完成一般性的数据分析工作。
第四,R语言占用空间较小,安装程序只有几十M且兼容性好,可运行于Windows、Mac OS和Linux等操作系统,小容量的R软件无疑给使用者带来更便利的用户体验。

适宜的统计软件能够帮助企业管理者在处理和分析大样本生产数据过程中发挥重要作用。本期公众号向读者介绍了R语言,下期我们将为大家介绍Python软件,敬请大家期待。

微信号:Friend_IT

