1、多重填补处理有缺失数据的 22交叉设计资料的计算机模拟者:李清华 夏结来 薛富波 【关键词】 缺失数据 【Abstract】 AIM: To handle 22 crossover data set with missing data by using Multiple Imputation method provided by Rubin and to avoid the difficulties in statistical analysis owing to missing data in medical research. METHODS: We used MI to fill in
2、missing data and analyzed the multiply imputed data sets with standard statistical procedure, then combined the statistical inferences with MIANALYZE procedure. RESULTS: The multiple imputation method imputed missing values of the crossover design and generated valid statistical inferences. CONCLUSI
3、ON: MI and MIANALYZE procedures provide a valid strategy for handling 22 cross over data set with missing data. 【Keywords】 multiple imputation analyze; missing data;cross over design 【摘要】 目的: 探讨利用 Rubin提出的多重填补的方法处理有缺失数据的 22交叉设计的资料,以避免医学科研中常常发生观测数据的缺失而造成统计分析的困难. 方法: 用 MI对缺失数据进行填补,用标准的统计程序对填补后的数据集分析,最
4、后用 MIANALYZE综合各个数据集的统计分析结果. 结果: 多重填补的方法可用于交叉设计中缺失数据的填补并得出正确的统计推断. 结论: MI与 MIANALYZE为处理存在缺失数据的 22交叉设计的资料提供了有效的策略. 【关键词】 多重填补分析; 缺失数据;交叉设计 0 引言 交叉设计是临床试验中比较两种处理 A,B 效应的常用方法. 其优点是减少个体差异对试验结果的影响,减小样本量. 但长期以来如何处理交叉设计的缺失数据是一个棘手的问题,临床试验中最常用的处理缺失数据的 LOCF(Last Observation Carried Forward)原则并不适合于交叉设计. 通常,当受试者
5、有一阶段的数据缺失时,则把受试者的信息全部剔除. 这造成了资源的极大浪费,特别是在样本量较小的情况下. 1976 年,Rubin1提出了处理缺失数据的多重填补(multiple imputation,MI)的方法2. 多重填补用一系列可能的值来替换每一个缺失值,以反映被替换的缺失数据的不确定性. 然后,用常规的方法对多次替换后产生的若干个数据集进行分析,最后用多重填补分析(multiple imputation analyze, MIANALYZE)把来自于各个数据集的统计结果进行综合. 这种方法反映出了由于数据缺失而导致的不确定性,能够产生更加有效的统计推断3. 在近二、三十年来,随着计算方
6、法的不断成熟和相应统计软件的出现,这一方法被认为是解决缺失值问题的首选方法. 根据多重填补与多重填补分析的方法及其统计推断原理,可以利用SAS程序处理有缺失数据的 22交叉设计的资料. 由于多重填补只处理包含两个变量以上的资料,在 SAS程序中先按处理重复资料的方式排列22交叉设计的资料,用 PROC MI进行填补,然后利用 SAS程序对填补后的 m个数据集进行转换,对转换后的数据集用 GLM分析,最后用 PROC MIANALYZE的 ods output语句读取对 m个数据集分析后得到的参数估计和协方差矩阵,得出综合的统计推断结果. 多重填补与多重填补分析的整个过程可以用 Fig 1表示.
7、 1 计算机模拟与分析 为了验证多重填补方法处理有缺失数据的 22交叉设计资料的有效性,建立线性模型如下4: yij=0+1x1ij+2x2ij+0j+eij 以 yij表示第 j个患者的第 i次测量值,以 x1ij表示 A, B两种处理的哑变量,x2ij 表示两个试验阶段的哑变量,它们均为 0, 1变量. j=1,2,100,表示患者,i=1,2,表示重复测量值. 0 为固定效应估计值. 残差 0j 为随机变量,0jN(0,02),反映了患者间变异,残差 eij即通常的残差项,eijN(0,e02). 交叉试验主要关心 A,B 处理间的差别,所以在计算机模拟时,重点考虑 1 的取值并且在模拟
8、结果中只分析处理效应的检验效能. 先根据建立的模型,利用 Monte Carlo模拟创建一个完全数据集,然后用 SAS程序把这个完全数据集随机去掉几个测量值,变成缺失数据集,再对有缺失值的数据集进行填补. 用常规的统计方法分别对完全数据集、有缺失值的数据集以及多重填补后的数据集进行统计分析,并比较它们的检验效能. 现用下面几个图表述主要研究结果: Fig 2是样本量为 24,两总体均数之差为 0.1,完全数据集、有不同缺失值的数据集以及对缺失数据集各填补 5次后的检验效能的比较. 从Fig 2可以看出,完全数据集的检验效能最高,随着缺失值的增加,检验效能越来越低,对缺失数据集进行多重填补处理后
9、,检验效能明显提高,其中,对缺失 3个值的数据集填补 5次后,检验效能基本上接近于完全数据集的检验效能. Fig 3是样本量为 24,两总体均数之差为 0.1,完全数据集、有 5个缺失值的数据集以及对缺失数据集填补 3次、5 次和 10次后得到的检验效能的比较. 从 Fig 3可以看出,对缺失数据集不做任何处理时,检验效能最低,随着对缺失数据集填补次数的增加,检验效能越来越高. 对缺失数据集填补 10次后的检验效能基本上接近完全数据集的检验效能. Fig 4是两总体均数之差为 0.1,样本量从 10增加到 60,完全数据集、缺失 3个值、缺失 5个值的数据集以及分别对它们填补 5次后得到的检验
10、效能的比较. 从 Fig 4可以看出,当样本量很小时,完全数据集、缺失数据集以及对缺失数据集进行填补分析后得到的检验效能都非常低,随着样本量的增加,检验效能都显著上升,对缺失 3个值的数据集填补5次后得到的检验效能基本上接近于完全数据集的检验效能. Fig 5是样本量为 24,两总体均数之差从 0.01增加到 0.2,完全数据集、缺失 3个值、缺失 5个值的数据集和分别对它们填补 5次后的检验效能的比较. 从 Fig 5可以看出,随着两总体均数相差的绝对值越来越大,完全数据集、缺失数据集以及对缺失数据集进行填补分析后得到的检验效能都明显上升. 比较 5种数据集的检验效能,随着缺失值的增加,检验
11、效能明显下降,对缺失数据集进行多重填补处理后得到的检验效能优于不对缺失数据集做任何处理. Fig 6是两总体均数之差为 0.1,样本量从 10增加到 60,完全数据集、缺失 5个值的数据集以及对缺失数据集分别填补 3次、5 次和 10次后的检验效能. 从 Fig 6可以看出,随着样本量的增加,5 种数据集的检验效能都明显提高,对缺失数据集进行多重填补处理后,检验效能显著提高,随着填补次数的增加,检验效能基本上接近于完全数据集的检验效能. Fig 7是样本量为 24,两总体均数之差从 0.01增加到 0.2,完全数据集、缺失 5个值的数据集以及对缺失数据集分别填补 3次、5 次和 10次后得到的
12、检验效能的比较. 从 Fig 7可以看出,随着两总体均数之差增加,5 个数据集的检验效能都明显提高,对缺失数据集进行多重填补处理后的检验效能高于不对缺失数据集做任何处理. 并且,随着填补次数的增加,检验效能越来越接近于完全数据集得出的检验效能. 2 讨论 Fig 27显示了相同参数组合下以及不同参数组合下,完全数据集、缺失数据集以及对缺失数据集多重填补处理后得到的检验效能. 通过对检验效能的比较,可以看出随着填补次数的增加检验效能基本上接近于完全数据集的检验效能. MI 与 MIANALYZE是 SAS 9 STAT模块中处理包含多个变量的不完全数据集资料的过程. 用这两个程序处理 22交叉设
13、计的资料,可以用 SAS程序对数据集转换,满足 MI要求的数据集包含多个变量这一条件,再做统计分析. 用多重填补的方法处理有缺失数据的 22交叉设计的资料,改进了以往剔除在任一阶段退出治疗的受试者的全部信息的方法,避免了资源的浪费,尤其在样本量较小的情况下. 经过计算机几十万次的模拟结果可以验证它反映了由于数据的缺失而导致的不确定性,通过对填补后的多个数据集的综合统计推断,能够得出有效的统计分析结果. 【参考文献】 1 Rubin DB. Multiple imputation: A primer J. Stat Methods Med Res, 1999; 8(1):3-15. 2 曹阳,
14、谢万军, 张罗曼. 多重填补的方法及其统计推断原理J. 中国医院统计,2003; 10(2):77-81. Cao Y, Xie WJ, Zhang LM. Multiple imputation and associated statistical inferencial principleJ. Chin J Hosp Stat, 2003; 10(2):77-81. 3 James MR. Inference for imputation estimators J. Biometrika, 2000; 87(1):113-124. 4 李晓松, 张文彤, 倪宗瓒. 多水平模型在交叉设计资料分析中的应用J. 中国卫生统计, 1999;16(5):273-274. Li XS, Zhang WT, Ni ZC. Multilevel models using in crossover design dataJ.Chin J Health Stat, 1999;16(5):273-274.