1、临床治疗数据的统计分析统计学家在面对一个实际的数据分析问题时,如何将实际问题转化为统计问题?如何设计一套系统的统计分析路线来得到答案?在进行统计分析时,如何根据问题背景和数据特性选择恰当的模型与分析方法?如何对用不同模型或分析方法得到的结果进行评估、比较?如何对统计分析的结果结合实际问题的背景加以合理的解释?1、白血病临床治疗的数据与问题在持续 1年的急性白血病治疗的临床试验中,研究者将 42位急性白血病患者(进入项目的时间有先后)随机地分成两组(各21人)。对一组病人用药物 6-MP治疗以缓解病痛,而另一组病人用安慰剂。安慰剂的外形和颜色与药物完全相同,但不含任何药 物,病 人自己并不知道实
2、际服用的是药物还是安慰剂。研究者记录下每个病人病痛缓解的持续时间(以周为单位),持续时间越长则疗效越好。数据见表 1。表 1 处理组和控制组各 21人 的病痛缓解的持续时间(周)处理组(使用 6-MP)21人6, 6, 6, 7, 10, 13, 16, 22, 236+, 9+, 10+, 11+, 17+19+, 20+, 25+,32+, 32+, 34+, 35+,控制组(使用安慰剂)21人1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8, 8, 11, 11, 12, 12, 15, 17, 22, 23表 1数据后面有 +者表示,当项目结束时缓解仍在持续。例如,
3、处理组中的 20+表示:该病人在项目结束前 20小时进入临床治疗,使用 6-MP后,缓解持续到项目结束。因此,该病人的实际缓解持续时间至少为20周,很可能大于 20周。这种数据在统计学中称为删失数据。医学研究关注的问题是: 6-MP能否显著延长缓解的持续时间?如果不能得到肯定的回答,则对该药物没有必要进一步研究;反之,如果结论是肯定的,则研究者希望进一步对以后的病人在使用 6-MP后的效果进行量化的评估。2、统计分析的思路用统计学的术语,白血病的缓解效果的分析是一个 “两样本比较 ”问题,一般用的是两正态样本均值比较的 t检验。但现在的问题复杂得多:首先,样本分布未知,而且在时间数据的分析中,
4、由于数据分布有很大的偏度,正态分布是一个 “坏 ”的模型。其次,数据是不完全的(有删失数据),常规的、用于完全数据的分析方法不能简单套用。本案例中,样本容量不大,首先采用参数模型的分析方法:1)分别对处理组和控制组的数据拟合一个满意的参数分布(最好是同一个分布族)。2)用参数假设检验来判断处理组和控制组的缓解时间分布是否有显著差别,从而回答医学研究中 “6-MP能否显著延长缓解的持续时间 ”的问题。如果回答是否定的,则可以认为本项研究得不出有意义的结果;如果回答是肯定的,则进入下一步。3)预测以后的病人在使用 6-MP后的缓解持续时间的有关参数,对 6-MP的效果给出有足够置信度的量化评估。3、对完全数据拟合分布在这批数据中,控制组(使用安慰剂)的数据是完全的,没有删失数据。完全数据的分析相对比较简单。我们的第一步目标是要选择一个参数分布来拟合数据。常用的拟合时间数据的参数模型(分布)有指数分布、 Weibull分布、 Gamma分布及对数正态分布等。合理性:每个实际问题都有一定的 “背景机理 ”,一般来说,统计模型的选择应该考虑背景机理。合适性:模型应该能够较好地拟合数据。简单性:当简单的模型可以相当满意地拟合数据时,不要采用复杂的模型。简单模型可以避免由随机因素造成的模型变形,并且容易从背景机理上解释。在选择参数分布模型时有几个原则需要遵循: