内容选取自彭健教授所著
《母猪营养代谢与精准营养》第十章。
原创内容,欢迎转发,务必注明信息来源。
线性统计模型简称为线性模型,是数理统计中一类统计模型的总称。在实际问题研究中,解释变量X与结局变量Y一般存在相互依赖关系,而线性模型能够反映二者间的关系,一般通过变量X和Y的取值来分析是否具有某种关联,解释变量X的取值在何种水平上能够产生对结局变量Y的影响;当解释变量取值不唯一时,还可探讨这些因素中,哪些因素是主要的,哪些因素是次要的(王松桂,1987)。
因此,线性模型常被广泛应用于生物技术、金融管理、工农业生产以及工程技术等领域,并在其中发挥着重要作用。在母猪生产中,对于连续型变量指标,如母猪分娩背膘、仔猪初生重、母猪泌乳期采食量和仔猪断奶重等指标的因素分析,都应该采用一般线性模型。
有关一般线性模型(General Linear Model, GLM)的研究起源很早。Fisher在1919年就曾使用过该模型;到20世纪四五十年代,Berkson等人已经开始利用Logistic模型分析实际问题;Nelder和Wedderburn(1972)在研究中首先提出广义线性模型(Generalized Linear Models)的概念,使得GLM模型得到进一步的推广和应用(Nelde and Wedderburn, 1972);此后随着相关研究的增加,McCullagh和Nelder(1983)在其论著中详细地论述了广义线性模型的基本理论与方法,并于1989年再出版(McCullagh and Nelder 1983, 1989)。
尽管从高斯提出最小二乘法至今已有100多年,但是由于线性模型具有广泛的应用性,学者们对它的研究和拓展逐渐深入。因此,线性模型依然是统计学中研究的热点。

在统计分析模型中,GLM模型是应用最广泛同时也是最重要的一类统计模型。依据结局变量的属性(计量、计数、定性)、解释变量的性质(分类变量还是连续变量)、有无协变量以及分布情况可以分为多种分析模型,通常包括线性回归模型、方差分析模型、协方差分析模型和广义线性模型等(王松桂,1987)。
尽管广义线性模型本质上属于非线性模型,但是同时又具有一些其他非线性模型所不具备的性质,如随机误差分布的明确性(二项分布、Poisson分布及负二项分布等);当随机误差分布符合正态时,广义线性模型等价于GLM模型(胡良平,1999)。
一般线性模型的模型方程如下:
Y = X β + ε
其中,Y代表结局变量的观测值,X代表解释变量,β代表回归系数,ε代表随机误差向量(应符合正态性及独立性)。当解释变量X数据类型全部属于定量数据(允许含有哑变量)时,这时的GLM模型则演变成为线性回归模型。模型方程如下:
Yi = β0 + β1X1 +β2X2 + ⋯βmXm + εi
其中,Yi代表第i次的结局变量观测值,X1, X2, X3, …Xm代表m种定量的解释变量,β0, β1,β2, β3, …βm代表与设计矩阵Xm的回归系数, εi则代表随机误差向量。GLM模型选用条件应包括以下4点:1)εi符合正态分布(满足正态性);2)εi(I = 1, 2, 3, …i)间相互独立(满足相互独立性);3)E(εi) = 0,方差为一常数(满足方差齐性);4)响应变量Yi与解释变量Xm(m = 1, 2, 3, …m)具有线性关系。以上4点均满足后,才可依据分析目的决定是否选用一般线性模型。线性回归模型可以用来确定两种或两种以上变量间相互依赖的定量关系,生产中能够在一些情景下使用,如研究母猪泌乳期采食量与仔猪增重或体损失的关系。

