大数跨境
0
0

种猪生产大数据分析方法之描述性统计

种猪生产大数据分析方法之描述性统计 武汉泛德信息技术有限公司
2022-07-11
2
导读:描述性统计,是指运用制表和分类、图形以及计算概括性数据来描述数据特征的各项活动。描述性统计分析要对调查总体所有变量的有关数据进行统计性描述。对于不同类型变量,常用的描述性统计分析方法和参数不同。


内容选取自彭健教授所著

《母猪营养代谢与精准营养》第十章。

原创内容,欢迎转发,务必注明信息来源。



描述性统计,是指运用制表和分类、图形以及计算概括性数据来描述数据特征的各项活动。描述性统计分析要对调查总体所有变量的有关数据进行统计性描述。对于不同类型变量,常用的描述性统计分析方法和参数不同。对于连续变量/离散变量,常用的描述性统计分析方法(参数)包括频数分布分析、集中趋势、离散程度和数据分布形态等;对于分类变量,常用的描述性统计分析方法包括频数分布分析和交叉列联表分析。另外,描述性统计分析也包括以图的方式呈现数据的结构和特征(伍云山,2010)。



一、数据变量类型


统计学中的变量根据数据属性和特征大致可以分为数值变量与分类变量,变量类型特征的不同导致在进行描述性统计时采取的方式不同。其中,数值变量根据取值特点不同可以分为离散型变量(discretevariable)和连续型变量(continuousvariable)两类;而分类变量(Categoricalvariable)则可根据分类多少以及分类后变量有无顺序之分,分为二分类变量(如是否、有无和男女等)、有序多分类变量和无序多分类变量三类(Yang,1997;李晓松,1998)。




二、分类变量


分类变量是指被测量的量(即被测属性的可能变化状态)是有限数量的不同值或类别的数据。分类变量的可能状态至少有两类,这些类别是相互区别排斥,并且共同包括所有个体。

当分类变量的状态只包含两类时,称为二分类变量。在母猪生产中,常见到的二分类变量包括母猪分娩(是/否)、仔猪存活(是/否)和仔猪腹泻(是/否)等指标。

当分类变量的可能状态超过两类时,根据这些类别之间是否存在任何大小、高低、前后或强弱关系又分为有序多分类变量和无序多分类变量两类。在实际生产中,某种药物治疗母猪肢蹄损伤的效果可以分为无效、好转和痊愈,这种类型的指标即属于有序多分类变量。再比如,母猪未分娩的原因一般包括妊娠期空怀、返情、流产和死淘,那么这种类型的变量就属于无序多分类变量。



三、离散型变量


离散变量指变量值可以按一定顺序一一列举,通常以整数位取值的变量。离散变量的数值用计数的方法取得,如职工人数、农场数和生产线等。在母猪生产中,接触比较多的离散型变量包括产仔和断奶性能等指标,如总产仔数、产活仔数、弱仔数和断奶头数等。常用的离散变量概率分布有两点分布、二项分布、泊松分布、几何分布和超几何分布等概率分布。



四、连续型变量


连续型变量是指在一定区间内可以任意取值,其数值是连续不断的,相邻两个数值可做无限分割,即可取无限个数值,如身高、体重及血钙水平等。在母猪生产中,接触比较多的连续型变量包括母猪体重、仔猪初生重、断奶重和哺乳期日增重等指标。常用的连续型变量概率分布主要包括均匀分布、正态分布和指数分布等。和离散型变量相比,连续型变量有“真零点”的概念,所以可以进行加减乘除的操作。






从本期开始,泛德公众号将开始陆续介绍一些养猪生产中常用的统计方法。本期我们首先从最基本的描述性统计开始,然后从养猪生产中记录的指标所属的数据类型出发,分别介绍了分类变量、离散型变量和连续型变量。下一期我们将继续介绍数据分布特征和常用的描述性统计量,敬请大家期待。


让数据创造价值


【声明】内容源于网络
0
0
武汉泛德信息技术有限公司
武汉泛德信息技术有限公司,2021年02月05日成立,经营范围包括一般项目:信息技术咨询服务;大数据服务;软件开发;数据处理和存储支持服务;数据处理服务;人工智能理论与算法软件开发;与农业生产经营有关的技术、信息、设施建设运营等服务
内容 63
粉丝 0
武汉泛德信息技术有限公司 武汉泛德信息技术有限公司,2021年02月05日成立,经营范围包括一般项目:信息技术咨询服务;大数据服务;软件开发;数据处理和存储支持服务;数据处理服务;人工智能理论与算法软件开发;与农业生产经营有关的技术、信息、设施建设运营等服务
总阅读118
粉丝0
内容63