1、1缺失数据处理在试验设计中的应用摘要:数据缺失在社会经济研究、抽样调查、生物医药研究等诸多领域普遍存在,因而缺失数据的处理一直是国际统计学界热点讨论的课题之一。本文以哮喘临床试验为例构建缺失模型对缺失数据进行处理。通过介绍三种缺失机制,根据哮喘临床试验中真实情况模拟产生数据,在此基础上构建 MAR 模型,借助 WinBUGS 和 R 软件通过贝叶斯方法对模型中的参数进行估计。结果表明,在哮喘临床试验中基于缺失模型的方法对结论的敏感性分析效果显著。 Abstract: Missing data is a main problem in many fields such as socio-econ
2、omic research, sample surveys and the field of biomedical research and many other common. Therefore, coping with missing data has been an increasing important issue in the discussion of international statistic. In this paper, we built a model for coping with the missing data from a asthma clinical t
3、rials. We introduced three kinds of missing mechanisms to analyze the character of missing data in different missing mechanism. The data in this paper were generated from real situation simulation with R ,based on which MAR model were built. The results show that, in asthma clinical trials, the meth
4、od we use is more preferable to 2assess the sensitivity of the conclusions. 关键词: 缺失数据;缺失模型;WinBUGS;临床试验 Key words: missing data;missing modle;WinBUGS;clinical trial 中图分类号:C81 文献标识码:A 文章编号:1006-4311(2015)31-0187-03 0 引言 数据挖掘在社会经济研究、抽样调查、生物医药研究等诸多领域得到广泛应用,然而数据缺失现象也相伴而生。数据的缺失不仅影响了数据的质量,也可能造成统计分析结果的严重偏差
5、。因此,对缺失数据的合理处理是一个非常重要的问题,是数据预处理的重要环节,也是提高数据质量、预测模型准确率和降低估计误差的重要方法之一。 在新药临床试验设计中,经常会由于试验设计不合适或者在试验进行中出现故障等原因造成部分试验数据未被记录到,即会出现数据缺失的现象。一般而言,对于缺失的数据通常的解决方法是调整系统并重新进行试验以便将缺失的数据补齐。但在实际中,由于试验周期要求、试验成本的限制、试验对象的唯一性或者无法进行重新的补充调查等原因使得试验不可重复。因此通过已有数据所提供的信息,科学地处理缺失数据对临床试验设计具有重要意义。 1 变量说明及数据缺失机制 1.1 数据及变量说明 本文设计
6、五组哮喘临床试验来评估布地奈德(budesonide)的有效3性和安全性。五组分别为安慰机组以及分别注入200mcg、400mcg、800mcg 和 1600mcg 的布地奈德的治疗组。将有患有慢性哮喘的 446 名的病人,按照随机双盲多中心平行试验的方法进行设计,对患者 12 周的情况进行记录。考虑到数据的保密性,本文所采用的数据根据哮喘临床试验真实背景模拟产生。对于布地奈德的疗效评估,通常用下面两个变量来衡量:即 1 秒钟呼出的气体的容积 FEV1 和呼气峰流速PEF。本文主要用 FEV1 的变化率评估布地奈德的疗效。对于某一患者,FEV1 的重要变化依赖于他(她)的 FEV1 的预计值。
7、FEV1 的预计值可以由一个人的体重、年龄和性别等来估计得出。对哮喘者病情的判断采用就诊时 FEV1 占预计值的百分比进行。本文将 FEV1 和基线的比较得到的变化作为 FEV1 的预计值百分比来看作是响应,记为 FEV1 占预计值的百分比。 假设有 i1,N 个病人随机的进入试验,每个病人在时间tij,j1,J 可以测得其响应,令 ti1=0。第 i 个个体在时间 tij基于基线的主要响应记为 yij,因此有 yi1=0,列向量yi=(yi1,yiJ)T 记为第 i 个个体的主要响应的完全集。更进一步,列向量 xi 记为第 i 个个体的协变量(辅助变量) ,则第 i 个个体的数据可以用(yi
8、,xi)表示。本文的哮喘试验,yij 记为 FEV1 占预计值百分比的变化量,xi 记为由例如年龄、性别、血压和哮喘可逆性程度等读出的基准值。 当存在数据缺失时,定义一个缺失数据指示阵 Mij,如果第 i 个个体的第 j 个观测值缺失则 Mij=1,否则 Mij=0。同时,本文假设一旦一个个4体退出(缺失)则不会再返回,因此向量 Mi=(Mi1,Mi2,MiJ)由一些列的 0 和 1 组成。一个病人的完全信息可以看作是包括观测部分和未观测部分(缺失部分) ,为了区分可观测的和缺失的信息,本文用 obs和 miss 这两个上标来标注。因此一个个体的完全数据(yi,xi)可以写作(yiobs,yi
9、miss,Mi,xi) ,其中向量(yiobs,yimiss)的长度是J。 1.2 缺失数据机制 假设将参数空间分成两个子集 和?准。令 P(y,M;,?准,x)表示数据的联合似然概率,是在给定的协变量基线下,参数向量的一个特别值。则由对变量的说明有: P(y,M;,?准,x)=P(yobs,ymiss,M;,?准,x) (1) 因为这个似然概率依赖于缺失的数据,则在一般的方式下达不到最大值。解决这个问题的一个方法是计算(1)的联合分布, (yobs,M)的分布可由下面的积分给出: P(yobs,M;,?准,x)=P(yobs,ymiss,M;,?准,x)dymiss (2) 我们单独的考虑第
10、 i 个个体的似然概率,因为每一个个体都看作是独立的,则可以把积分的第 i 个成分的联合密度写成如下: P(yiobs,yimiss,Mi;,?准,xi)=P(Miyiobs,yimiss;?准,xi)P(yiobs,yimiss;,xi) (3) 对于(3)式,由 P(Miyiobs,yimiss;?准,xi)来刻划缺失机制,有 3 种缺失机制分别为:完全随机缺失(MCAR) 、随机缺失(MAR)5和非随机缺失(NMAR) 。 2 构建缺失模型(MAR 模型) 上述研究表明病人在试验中退出的原因非常重要,如果所有退出病人的响应值都可以通过预测得到,那么就可以在模型中使用这些预测得到的响应值,
11、使缺失数据集成为一个“完全数据集”从而来分析试验结果。本文通过构建缺失模型探研对缺失数据处理。 首先用图表的方法描述缺失机制,如图 1 所示。 图 1 描述了在哮喘研究中不同治疗组研究情况,病人参与和未参与下次就诊基于基期 FEV 预测值百分比变化量均值及其 2 倍标准差范围变化情况。盲目组初始病人 87 人、200mcg 为 90 人、400mcg 为 89 人、800和 1600mcg 为 178 人,400mcg 计量的试验组中,2 周时只有 2 人缺失,由于 800mcg 与 1600mcg 出现的情况非常相近,因此将二者结合。图 1 表示了缺失率随时间变化以及在不同试验组的缺失率。同
12、时退出试验患者的 FEV1 预测值的百分比高于继续参与下次就诊病人的值,因而说明缺失值不是完全缺失。 2.1 时间轴转换 在 MAR 模型中,选取预测 FEV1 基于基期变化百分比这一变量,即Yij,该变量由观测的 FEV1 计算所得,且变量 Yij 服从多元正态分布。用 WinBUGS 软件对模型参数进行估计,在估计过程中,利用模糊先验值有助于更精确地估计参数值。 图 2(a)表示各治疗组预测 FEV1 基于基期变化百分比的均值。该图显示,前四周试验中,均值的变化较大,之后逐渐趋于稳定,因而线性6模型与指数模型都不能很好地进行模型拟合,所以本文先采用转换时间轴的方法,使得数据在时间轴上呈现出
13、线性特征,这样可以更好拟合模型。 图 2(b)给出了经过转换后各治疗组预测 FEV1 基于基期变化百分比的均值,这样可以估计出随着时间推移,Yij 的均值的稳定值。即 t时,其均值为固定斜率的 倍。采用极大似然估计,对 、 两参数进行估计,在 95%的置信区间下, (,)的估计值为(0.98,1.01) 。因此,本文近似取 =1。 2.2 MAR 模型构建 在 MAR 模型中,YijN(ij,2) ij=slope,itij slope,iN(slope,i,2slope) slope,i=lxl,x (4) tij:经过转换后的时间;slope,i:第 i 个病人 Yij 斜率; 在估计参数
14、之前, 的先验信息为:N(0,100000) ,且已知:=,slope=。同时,x 服从 gamma 分布,即 f(x;r,)=,其中=r=0.001。 2.3 模型检验 运用 WinBUGS 软件来完成此模型检验过程。在初始阶段,从联合分布中抽取样本数为 5000 的样本,后来在稳定阶段又抽取样本数为 10000的样本,结果显示通过稳定性检验,在 95%置信水平、滞后 50 阶条件下计算样本相关系数。得相关系数的伴随概率(0.0001)小于 0.05。即通过了稳定性检验。 72.4 结果分析 用 winbugs 软件对参数进行估计,结果见图 3。 图 3 给出了在各种情况下盲目组与 200m
15、cg 布地奈德实验组得观测数据的均值(合适的地方进行插补) 。试验中随着治疗时间的增加,病人退出试验的情况逐渐减少。 从图中我们可以得到如下结论: 完全数据(包括观测数据和缺失数据)的期望高于全部观测数据的期望,因此说明,试验设计中的缺失数据机制是非完全随机缺失机制。在初始阶段,随机缺失模型估计的结果近似于全部观测值结果,而在试验后期阶段,其结果稍低于全部观测值。但是随机模型估计的结果高于最后一次观测值。即如果缺失属于随机缺失,运用最后一次观测值来估计模型结果会出现偏差。 3 结论及不足 在临床试验中,很多患者由于各种原因不能完成全部试验,因此,就需要清楚了解整个试验过程。本文通过构建模型来处
16、理缺失数据的方法与用纵向研究数据的方法相近。基于模型对缺失数据的处理,是一种在不同缺失机制下对缺失结果敏感性估计的较好方法,与采用最后的观测值来预期缺失值的方法相比效果更好些。但考虑到数据的可得性和方法的适用性,本文只考虑了连续型缺失数据的情况,而通过构建模型对缺失数据的填补还可以推广到离散型情况。但在实际中很难选择合适的模型来解决不同缺失机制下缺失数据的问题。当缺失数据与一个弱响应8的关系密切时,应当采用本文中提供的模型结构来研究观测值和缺失数据。当要考虑全部信息是就要运用缺失数据信息,即如果模型的响应与缺失数据有关时,应当选择混合模型。 参考文献: 1Little RJA, Rubin D
17、B. Statistical Analysis with Missing DataM?New York: Wiley and Sons, Inc. 1987. 2Nordheim EV. Inference from nonrandomly missing data: An example from a genetic study on Turners Syndrome J?Am Statist Assoc, 1984, 79: 772-780. 3Little R J A and Rubin D B. Statistical Analysis with Missing Date. M. John Wiley and Sons, 2002. 孙山泽译.缺失数据统计分析.中国统计出版社,2004:1-15,173-183. 4乔丽华,傅德印.缺失数据的多重插补方法J.统计教育 2002,12. 5张念先.临床试验常用缺失数据处理方法的局限性分析J.中国新药与临床杂志,2009,9.