大数跨境
0
0

种猪生产大数据分析方法之统计软件篇R语言

种猪生产大数据分析方法之统计软件篇R语言 武汉泛德信息技术有限公司
2021-09-01
3
导读:传统的数据统计分析方式统计效率低,周期长,而且不够清晰。而数据统计分析软件可将企业越来越庞大的数据运用到数据统计分析软件中,帮助数据分析师在短时间内完成复杂的数据分析计算过程,输出准确的数据分析结果,

内容选取自彭健教授所著

《母猪营养代谢与精准营养》第十章。

原创内容,欢迎转发,务必注明信息来源。



规模化猪场的数据是十分庞大而复杂的,这对数据统计分析的需求及对数据处理能力,尤其是“海量”数据的处理、挖掘及分析能力提出了更高要求。传统的数据统计分析方式统计效率低,统计周期长,而且不够直观清晰,这已远远不能满足实际需求。而数据统计分析软件可将企业越来越庞大的数据运用到数据统计分析软件中,帮助数据分析师在短时间内完成复杂的数据分析计算过程,输出准确的数据分析结果,提高工作效率。基于畜牧科研中软件使用习惯,统计软件篇内容将连续4期重点介绍SASSPSSR语言和Python语言4款软件的基本情况、功能和特点。读者在学习统计分析软件时,可以根据自己的实际要,选择其中的一到两种软件进行学习并使用。前两期已经分别介绍了SAS和SPSS软件,本期主要介绍R语言的相关信息。



一、R语言简介


R语言(R language)诞生于上个世纪九十年代,最初是S语言的一种实现。S语言是由贝尔实验室开发的一种用来进行数据探索、统计分析和作图的解释型语言。S语言同C语言一样,它同样只是一个标准,而围绕它有很多实现。S语言的最初实现版是S-PLUS,但S-PLUS作为一款商业软件,因其价格昂贵而导致使用面较窄。随后新西兰奥克兰大学的RossIhaka与RobertGentleman 共同开发出S语言的另一种实现-R语言(也因此称为R)。
R语言是一个有着统计分析功能以及强大作图功能的语言环境和软件系统,可在多种系统和平台上运行,例如Windows、UNIX和Mac OS,这也意味着R可以运行在人们能拥有的任何计算机上。R语言的开发及维护由R开发核心小组具体负责,这个团队的成员大部分来自大学机构的统计及相关院系。除了这些开发者之外,R语言还拥有一大批贡献者,他们为R语言编写代码、修正程序缺陷和撰写文档。由于R语言是在GNU协议下免费发行,因此其源代码和已编译的可执行文件版本可自由下载使用。目前有5500多个称为包(package)的用户贡献模块可从http://cran.r-project.org/web/packages下载。这些包提供了横跨各种领域、数量惊人的新功能,包括分析地理数据、处理蛋白质质谱,甚至是心理测验分析的功能。正因如此,R语言也被广泛应用于互联网、制药、环境保护等行业,进行经济计量、财经分析、人文科学研究、用户行为分析以及人工智能相关的计算等领域。



二、R语言功能


目前,我们在做数据分析时面对的数据类型主要包括结构化数据、半结构化数据以及非结构化数据,这三类数据类型占比分别为5%、10%和85%,其中非结构化数据主要包含了多种样式的视频、音频、文本文档、图片以及相关报表等。从统计学的角度来看,许多分析软件最为困难的就是不能对所有类型数据进行分析和挖掘。R语言可以为结构化和半结构化数据提供强大的统计分析和数据处理的功能,例如R语言所具有的Rweibo包和RCurl包等都可以对网络数据和文本进行挖掘,而且也可以对非结构性数据进行相应的分析和处理

在分析结构化数据时,R语言可以处理向量、矩阵、数据框(与数据集类似)以及列表(各种对象的集合)等多种类型的数据,并且内置了许多统计函数,用这些函数可以方便地解决在统计分析中的概率计算、临界值、分位数以及数学建模等问题。《母猪营养代谢与精准营养》第十章第三节(p334-339)数据分析实例2就是利用R语言对母猪产仔性能进行时间序列建模分析,具体内容后面会有详细介绍,在此不再赘述。

此外,R语言的另一强项是绘图可视化功能,它主要包括三大绘图系统,分别是基础绘图系统(Base Plotting System)、Lattice绘图系统(Lattice Plotting System)和ggplot2绘图系统(ggplotw Plotting System)。基础绘图系统的主要功能包为graphics,它又包括两类,一是低级绘图函数,如创建画布、点、线、多边形等;而是高级绘图函数,如plot(),boxplot(),hist(),density()等。基础绘图系统调用函数会启用一个图形设备并在设备上绘图,适用于绘制2D图。

三、R语言特点


第一,R是一款开源软件,可以免费下载及使用,函数代码也是公开的,使用者可以通过输入“help()”函数查看这些函数的说明与介绍即可掌握该包的具体使用方法,并且用户可根据需要修改函数,可以更快地理解算法,提高工作效率。除了R之外,目前市场上存在各种挖掘软件,主流的商用挖掘工具如SAS、SPSS等面向通用挖掘问题,功能较为完善,具备较好的性能。但一般都存在可扩展性不强、成本较高等缺点,因此,使用者大多接触及使用的是其盗版软件。然而R因其作为免费资源而更受数据分析者的青睐。

第二,R语言的开放性好。首先,R允许用户使用C语言、Java等开发R里的一些子程序,而这些子程序又可以在R里面直接运行,兼容功能强大,并且用户可以自己开发package,之后提交给R官方,进行测试后若无差错即可发布于网上供全世界的R使用者分享。其次,R语言可通过开放的网络平台整合相关行业的专家学者加入开发工作,大大提高了package的专业性。

第三,R包含多种标准函数。R语言作为一种统计软件,集成了很多经典的数据挖掘及分析方法,对于通用的模型均已完成封装,函数及命令调用简便,运算速度也已经过优化,且有丰富的数据可视化函数,可以简便高效地完成一般性的数据分析工作。

第四,R语言占用空间较小,安装程序只有几十M且兼容性好,可运行于Windows、Mac OS和Linux等操作系统,小容量的R软件无疑给使用者带来更便利的用户体验。







适宜的统计软件能够帮助企业管理者在处理和分析大样本生产数据过程中发挥重要作用。本期公众号向读者介绍了R语言,下期我们将为大家介绍Python软件,敬请大家期待。




微信号:Friend_IT

~
关注泛德信息公众号,下期更精彩!
【声明】内容源于网络
0
0
武汉泛德信息技术有限公司
武汉泛德信息技术有限公司,2021年02月05日成立,经营范围包括一般项目:信息技术咨询服务;大数据服务;软件开发;数据处理和存储支持服务;数据处理服务;人工智能理论与算法软件开发;与农业生产经营有关的技术、信息、设施建设运营等服务
内容 63
粉丝 0
武汉泛德信息技术有限公司 武汉泛德信息技术有限公司,2021年02月05日成立,经营范围包括一般项目:信息技术咨询服务;大数据服务;软件开发;数据处理和存储支持服务;数据处理服务;人工智能理论与算法软件开发;与农业生产经营有关的技术、信息、设施建设运营等服务
总阅读135
粉丝0
内容63