大数跨境
0
0

多重线性回归

多重线性回归 数据分析和应用
2020-05-21
2
导读:前面我们介绍的相关分析主要用于研究两变量之间线性关系的强度和方向,且被分析的两个变量不分主次。但当待分析的变量存在主次关系,且需分析一个连续型变量(因变量)如何随多个变量(自变量)变化时,多重线性回归

前面我们介绍的相关分析主要用于研究两变量之间线性关系的强度和方向,且被分析的两个变量不分主次。但当待分析的变量存在主次关系,且需分析一个连续型变量(因变量)如何随多个变量(自变量)变化时,多重线性回归分析是最常用的方法。使用该方法需满足以下4个条件的数据资料:①因变量与自变量之间呈线性关系;②每个个体观测值之间相互独立;③一定范围内,任意给定X值,其对应的随机变量Y服从正态分布;④在一定范围内,不同X值所对应的随机变量Y的方差相等。

多重线性回归模型一般形式为

Y=β01X12X2+…+βmXm+e

其中Y为因变量总体均数的估计值,β0为截距,βm为自变量Xm的偏回归系数,表示当方程中的其它自变量保持不变时,自变量Xm变化一个单位,因变量Y的平均值变化βm个单位。


1   问题提出

现有27名糖尿病患者的血清总胆固醇 (mmol/L)、甘油三酯 (mmol/L)、空腹胰岛素 (μU/ml)、糖化血红蛋白(%)、空腹血糖(mmol/L)的测量资料。研究者想获得这4个因素对糖尿病人空腹血糖的作用大小。

数据如表1所示,表格有5列数据,TC为总胆固醇、TG为甘油三酯、INS为胰岛素、HbA1c为糖化血红蛋白、GLU为空腹血糖。


表1 糖尿病患者数据资料

2  前提条件的检验

01
判断模型的正态性、线性、方差方齐性

使用多重线性回归需要满足LINE的条件,我们首先使用plot()函数,判断模型的正态性、线性、同方差性。代码和结果如下:


diabetes <- read.csv(file="F:\\糖尿病患者血糖及有关变量.csv")  #读取数据#
it <- lm(GLU ~ TC + TG + INS + HbA1c, data= diabetes)
par(mfrow=c(2,2))
plot(fit)


图1 回归诊断图


关于正态性检验,图1(右上)的点基本上落在直线附近,满足正态检验;关于线性检验,图1(左上)残差图和拟合图未呈现明显的曲线关系,即残差与预测值无任何系统关联,说明应变量和自变量线性相关;关于同方差性,图1(左下)红线周围的点呈随机分布,符合同方差性。图1(右下)用于鉴别离群点、高杠杆值和强影响点。


02
独立性


由于图1无法判断因变量值是否相互独立,我们可以使用car包中的durbinWatsonTest()函数做Durbin-Watson检验,判断其独立性。代码和结果如下:


durbinWatsonTest()函数做Durbin-Watson检验,判断其独立性。
library(car) #这里载入的是2.1-6版本的car包。可使用两条代码require(devtools)与 install_version("car", version = "2.1-6", repos = "http://cran.us.r-project.org")安装。
durbinWatsonTest(fit) #通过Durbin-Watson检验判断因变量是否相互独立。


图2  Durbin-Watson检验结果

图2结果显示Durbin-Watson统计量为1.63,p=0.346,说明无自相关性,即因变量之间相互独立。


3  模型的检验与评价

经过正态性、独立性、线性和同方差性检验,该模型基本符合4个前提条件。接下来检验多重线性回归方程和自变量是否有统计学意义。


01
回归模型假设检验与评价


我们使用summary()函数查看模型的相关参数,代码和结果如下:

fit <- lm(GLU ~ TC + TG + INS + HbA1c, data= diabetes)
summary(fit)


图3 多重线性回归模型summary结果

图3的拟合模型方差分析检验结果显示F=8.278,p<0.01,可认为所拟合的模型具有统计学意义。决定系数R2为0.6008,糖尿病病人GLU水平变异的 60。08%可由TC、TG、INS、HbA1c的变化来解释。


02

各自变量的检验与评价

判断自变量是否有统计学意义可通过图3结果的各项t值和p值判断,而比较各自变量作用大小需对各回归系数进行标准化。


zdiabetes <- as.data.frame(scale(diabetes))  #使用scale()函数将数据标准化为均值为0、标准差为1的数据集
zfit <- lm(GLU ~ TC + TG + INS + HbA1c, data = zdiabetes) 
coef(zfit)


图4 标准化回归系数结果


图3结果显示各自变量t检验结果t值及其p值,结果表明,当控制其他变量不变时,INS与GLU有线性回归关系(p=0.0363);HbA1c与GLU有线性回归关系(p=0.0155)。图4结果显示,经HbA1c对GLU的回归所起的作用更大。


小结

文中介绍了基本的多重线性回归模型拟合方法和检验方法。此外,car包中还提供更多函数用于模型检验,加强评价模型的能力。在实际应用中,需要基于对主题背景知识的理解,选择对应的方法。


以上案例数据,可在公众号输入“多重线性回归”获取~

参考来源 :

1. 孙振球,徐勇勇.医学统计学:第4版[M].北京:人民卫生出版社.2014.

2. [美]Robert I. Kabacoff著.R语言实战(第2版) [M].王小宁等译.北京:人民邮电出出版社.2016.


制作:吴君乐、蔡敏

初审:何冠豪、胡建雄

审核:肖建鹏、刘涛

指导:马文军



关于我们 

《数据分析和应用》致力于为全国各地公共卫生与医学工作者(机构)提供专业可靠的统计咨询、研究设计、数据分析、高通量测序数据和序列分析、调研报告等服务(详细可见公众号菜单栏),欢迎有需要的人员和机构与我们联系。


扫码关注我们



邮箱:statistic@gdiph.org.cn
微信号:gdiph-stat



点击此处“阅读全文”可进行留言和评论哦~


【声明】内容源于网络
0
0
数据分析和应用
“数据分析和应用”分享数据分析方法、案例及相关知识,总结实践经验。
内容 63
粉丝 0
数据分析和应用 “数据分析和应用”分享数据分析方法、案例及相关知识,总结实践经验。
总阅读6
粉丝0
内容63