大数跨境
0
0

多重填补法填补缺失值

多重填补法填补缺失值 数据分析和应用
2020-07-17
1
导读:多重填补法(mutiple imputation)是解决数据缺失问题的常用方法,它可以通过多次填补产生若干个完整数据集并用于综合分析。随着计算方法和软件技术的成熟,该方法也被越来越多地应用于生物医学、

多重填补法(mutiple imputation)是解决数据缺失问题的常用方法,它可以通过多次填补产生若干个完整数据集并用于综合分析。随着计算方法和软件技术的成熟,该方法也被越来越多地应用于生物医学、社会科学等领域。

01

方法概述

多重填补(multiple imputation,MI)的概念在1977年由Dempster教授和美国哈佛大学统计系Rubin教授首先提出。在对缺失数据的处理过程中,多重填补法首先给每一个缺失值都构造m个填补值(m>1),产生m个完整数据集;再根据研究目的对每个完整数据集分别进行统计分析,得到m个分析结果;最后综合这m个分析结果,得到最终的统计推断和研究结果。构造m个填补值的目的是模拟一定条件下的估计值分布。
多重填补法主要分为两个阶段。在第一阶段,通过从填补模型(即需要填补的数据集)中取样来估算缺失数据。填补模型应包括之后我们分析数据用到的所有变量(结果、暴露、混杂因素等),以及之后分析数据不需要但与缺失数据的变量有关的其他变量(称为辅助变量)。通过多次重复填补,可以创建多个完整的数据集(如图1所示)。在第二阶段,对每个填补好的“完整的”数据集进行所需要的统计分析,此时得到的统计值是基于所有“完整的”数据集分析所得统计值(回归系数β和标准误SE等)的平均值。
图1.多重填补法填补过程
02

 常用多重填补的方法

在此前的推文“缺失数据填补概论”中,已对常用的多重填补法做了介绍。在分析中,使用何种方法去填补这一组(m个)缺失值尤为重要,而填补的方法有很多种,取决于数据缺失的模式和填补变量的类型。根据的缺失模式,填补方法可分为适用于单调缺失模式的回归预测法、预测均数匹配法、趋势得分法,以及适用于任何缺失模式的马尔科夫链蒙特卡罗(MCMC)法;根据填补原理,填补方法又可分为利用变量之间的相关性进行填补的方法(如预测均值匹配多重填补法,即PMM法)以及根据变量之间的统计性质进行填补的方法(如EMB多重填补法)等。具体方法的选择可以参考下图图2。
下面介绍下常用的多重插补法——PMM法的插补原理。PMM多重插补法利用观测数据建立线性数据模型y=xβ+ε(响应变量y和解释变量x都包括了完整的和缺失的观测值),然后得到估计的系数,并利用和x得到全部y的拟合值。选择拟合值和缺失值距离相近的观测值形成“缺失值提供库”,随机抽取“缺失值提供库”的数值作为填补值。重复上述步骤M次,得到M组填补值。

图2.多重填补法的分类
03

 R语言实现

(一)初编程  
本次的实例演示仍此前推文“缺失数据填补概论”中的cancer数据集为例,该数据集是1000名癌症患者的资料数据,共有6个变量。其中连续型变量生存时间和年龄分别缺失了120个和90个数据。现使用R语言的mice包进行多重填补。
mice包中mice()函数可以实现多重填补,参数method=c(“norm.predict”,”pmm”,”rf”,”norm”)为使用的方法类别,其中norm.predict表示线性回归预测方法,pmm表示预测均值匹配多重填补法,rf表示随机森林法,norm表示高斯线性回归法。下面将使用mice包默认的预测均值匹配多重填补法(PMM)对该数据集进行填补,代码如下所示。
library(mice)  #加载mice包
data1<-read.csv("缺失数据.csv")#读入数据
impdat <- mice(data1,m=5,method=c("pmm"))#采用PMM法进行多重填补,m=5
summary(impdat)
结果如图4所示。

图3.平均值填补的多重填补法
注:预测变量矩阵显示多重填补结果,其中1和0分别表示使用和未使用填补提供的信息。
(二)检测数据  
data2<-complete(impdat,3)  #以选择第三个填补数据集为例
summary(data1) #查看填补前结果
summary(data2) #查看填补后结果

图4.填补前后结果
后续根据研究目的进行m次统计分析和统计推断,再对统计量β和SE等取均值(或中位数)即可。
04

 小结

多重填补法是一种常用的处理缺失数据方法,特别是存在与缺失数据的变量相关的其他辅助变量时,它可以减少偏差,提高精度。在考虑使用多重填补法分析数据时,首先需要注意填补次数,有学者建议填补次数应>5次,从而避免产生较大的误差,也有研究认为填补次数至少大于分析模型中缺失数据的百分比,例如缺失数据比例为30%,则填补次数应>30次。其次,在考虑使用多重填补法填补数据时,需要评估多重填补法在提供收益、减少偏差或提高精度方面是否有价值,毕竟“此完全数据集”不是真正的完全数据集,在使用分析结果时要需要保留客观谨慎的科学态度。



参考文献:

1.石福艳, et al., EMB多重填补法在横断面健康体检资料定量变量填补中应用. 中国公共卫生, 2019. 35(11): p. 1536-1539.

2.刘小莉, et al., 多重填补法在公共卫生调查研究中的应用. 中华医学杂志, 2019(46): p. 3675-3676-3677.

3.梁霞, 缺失数据的多重填补及其改进. 2007, 中南大学.

4.邹莉玲, 吴娟丽, and 李觉, 多重填补法在任意缺失随访资料中的应用. 中国卫生统计, 2015. 32(02): p. 221-223.


制作:董墨染、李佳莉、吴君乐

初审:龚德鑫、胡建雄

审核:肖建鹏、刘涛

指导:马文军





关于我们

《数据分析和应用》致力于为全国各地公共卫生与医学工作者(机构)提供专业可靠的统计咨询、研究设计、数据分析、高通量测序数据和序列分析、调研报告等服务(详细可见公众号菜单栏),欢迎有需要的人员和机构与我们联系。


邮箱:statisic@gdiph.org.cn         

微信号:gdiph-stat

扫码关注


【声明】内容源于网络
0
0
数据分析和应用
“数据分析和应用”分享数据分析方法、案例及相关知识,总结实践经验。
内容 63
粉丝 0
数据分析和应用 “数据分析和应用”分享数据分析方法、案例及相关知识,总结实践经验。
总阅读17
粉丝0
内容63