1、生存分析,于石成 2016-05-18,讲授内容,一、生存分析概述二、描述生存过程三、生存曲线的比较四、Cox比例风险模型五、小结,一、生存分析概述,生存分析就是根据试验或调查得到的数据, 对生物或人的生存时间进行分析和统计推断。对癌症病人的生存时间研究,白血病病人从治疗到复发的时间进行研究;对电子设备 (如灯泡) 寿命的研究;第一次婚姻维持时间的分析等 (社会学)。,生存时间:狭义的理解, 生存时间是指从发病到死亡所经历的事件跨度。从广义的角度讲,是从某种起始事件到达某种终点事件所经历的时间跨度。,起始事件 失效事件疾病确诊 死亡治疗开始 痊愈出院时间 疾病复发接触危险因素 发病电灯泡开始使
2、用时间 电灯泡报废时间新产品上市时间 新产品被使用时间,完全数据:观察到了病人的预期终点(失效事件发生),该病人所提供的关于生存时间的信息是完整的。截尾数据(censored data):由于失访、死于其它疾病或研究工作结束时事件尚未发生,未能达到预期的终点,提供的只是不完整的数据信息。,病人开始随访时间:诊断、治疗、手术、出院;病人截止随访的时间;截止随访的原因:有关影响预后因素,如年龄、文化程度以及职业、病程、病型、术前健康状况等,以分析各因素对生存率的影响。,生存时间存在不完全数据,不能按照以往的处理缺失值的方法处理生存数据。生存时间通常不服从正态分布(一般为正偏态分布),因此常用的t检
3、验、F检验等不适用于对生存资料的分析。,几个概念:,死亡概率表示年初人口在往后一年中死亡机会的大小。,生存率(survival rate)或生存函数(survival function):病人经过t个时段后仍存活的可能性。生存率通常随时间 t 的变化而变化,是时间 t 的函数,故又称为生存函数,记为S(t), 0S(t)1。如资料中无删失数据,直接法计算生存率的公式:若有删失数据,须分段计算生存概率。假定观察对象在各个时段的生存事件独立,应用概率乘法定理将分段生存概率相乘得到生存率。,生存概率和生存率的区别: 前者为单位时段上存活的条件概率; 后者为从t0开始连续若干时段上存活的概率。,描述生
4、存过程:研究生存时间的分布特点,估计生存率;获得生存率曲线,了解生存率随时间的变化趋势;计算平均/中位生存时间。Kaplan-Meier法由Kaplan和Meier于1958年提出,又称乘积极限法(product-limit method)。,二、描述生存过程,KM法原理: 建立在条件概率和概率乘法原理基础上。生存率与条件概率S(2) 2年生存率S(1) 1年生存率。S(2|1) 生存1年条件下,再能生存一年的概率。S(2) = S(1)*S(2|1),例题 1:某种治疗方案治疗肺癌患者11例,随访时间(月)记录如下: 1,2,3,5,6,9,11,13,16,26,37 试估计各时点生存率及
5、标准误。,生存率的标准误和总体生存率95%可信区间:从样本资料计算的生存率是总体生存率的点估计,可据此进行总体生存率的区间估计。,中位生存时间(median survival time),表示恰有50的个体还存活的时间。从意义上讲,这是一种百分数,但因有删失数据,不是寿命的真值,所以不能采用普通的百分位数的公式计算。 生存函数S(t) 0.5时,对应的时间即中位生存时间。, 图示法:结果不一定准确。 生存率为0.5的曲线正好与x轴平行,那中位生存期不止一个; 若曲线上生存率全大于0.5,中位生存时间无法估计。 线性内插法:,平均生存时间(mean survival time),平均生存时间即生
6、存曲线与 x及y轴围成的面积。,2. 寿命表法,例题 2: 某肿瘤医院总结随访了15年来曾在该医院住院手术的乳腺癌病人607例,结果见表2。拟分析该院乳腺癌病人手术后的生存率。,三、生存曲线的比较 log-rank检验,基本思想是:实际死亡数与期望死亡数之间的比较。它是对各组生存率作整体的比较;适用于两组及多组生存率的比较。生存过程的比较:获得生存率与标准误后,进行两组或多组研究样本的生存率的比较。,对数秩检验步骤,将两组资料混合后统一从小到大排序;计算各组在时间 ti上的期望死亡数;分组对期望死亡数求和;计算卡方统计量。,例 3:22例期非小细胞肺癌患者在不同日期经随机化分配到放疗组和放化疗
7、联合组,从缓解出院日开始随访,随访时间(月)如下,试比较放疗和放化疗联合两种治疗方案的生存曲线有无差别。 第一组:放疗组 1,2,3,5,6,9,11,13,16,26,37 第二组:放化疗联合组 10,11,14,18,22,22,26,32,38,40,42,SAS程序,Proc lifetest options;Time variable*censor (删失值);Strata variable;Freq 变量;Run;,选择项,Method=PL /LT KM LIFE缺省为PL法在LT法中,可规定 Intervals=一组数字 规定时间段的起点 Intervals=(o to n b
8、y n2) Width=value 寿命表计算时的区间宽度Plots=(s, ls , lls,h),生存曲线的比较总结:,log-rank检验将两组非删失时间混合从小到大排序,得多个四格表,aj和ej分别为第j个四格表中某组死亡数的实际频数和理论频数, vj为aj的方差。,Wilcoxon检验(SPSS中称为Breslow检验)aj和ej分别为第j个四格表中某组死亡数的实际频数和理论频数, vj为aj的方差。Nj为第j个四格表的例数。log-rank检验与Wilcoxon检验的公式相似,但log-rank检验权重为1,而Wilcoxon检验的权重为Nj 。,Log-rank检验和Wilcox
9、on检验统计量的一般形式:,似然比检验其中Nj是第j组的结局例数,Tj是第j组的总时间。似然比检验与log-rank检验、Wilcoxon检验不同,通常用于服从指数分布的数据。,三种检验方法的选择:大样本情况下,三种方法的结果是一致的;文献中最常报道的是log-rank检验;三种检验结果不一致时,需结合生存曲线、对数生存曲线、二次对数生存曲线等来判断。,生存曲线(S)图:以生存率估计值为纵坐标,时间为横坐标。对数生存曲线(LS)图:以生存率估计值的对数为纵坐标,以时间为横坐标。二次对数生存曲线(LLS)图:以生存率估计值的对数的对数为纵坐标,以时间的对数为横坐标。,三种检验方法结果不同时选哪个
10、?似然比检验:通常只用于LS图近似为直线,也就是服从指数分布的情形,其它情况下效率较低。Log-rank检验:当LLS图中曲线近似为直线时,或S图的两条曲线大致平行时,效率较高。Wilcoxon检验:当S图中的曲线有交叉时, Wilcoxon检验的效率高于log-rank检验和似然比检验。,Logrank检验与Wilcoxon检验比较:Wilcoxon检验对生存时间较短的个体赋予较大权重,更容易检验出早期的差异。Logrank检验对所有死亡时间赋予相等的权重,对后期曲线差别的检验更为敏感。如果log-rank检验有意义而Wilcoxon检验无意义,表明远期的生存差异较大,近期生存差别不大。如果
11、log-rank检验无意义而Wilcoxon检验有意义,表明近期生存差别较大,远期生存差异不大。如果两种检验都有意义,则表明近期和远期的差异均较大。,四、Cox比例风险模型,预后因素:生存时间不仅与治疗措施有关,而且还与病人的年龄、体质、病情的轻重等有关,这类因素统称为预后因素或伴随变量或协变量。预后因素可以是连续变量、离散型变量、Categorical, 也可以是两个变量的交互项。,(一)问题的提出,生存资料的特点;存在删失数据生存时间分布常常不服从正态分布多重线性回归模型假设生存时间服从正态分布;logistic须把生存时间分为二分类,损失信息;拟合其它生存分布模型,必须预先知道生存时间的
12、分布。,(二)Cox比例风险模型,1972年,由英国的生物统计学家D. R. Cox提出比例风险模型。,风险函数 ( hazard function ),描述生存时间分布的一个重要函数。如终点事件为死亡,风险函数表示t时刻仍存活的病人在t时刻的瞬间死亡率。,称瞬时死亡率或条件死亡速率。,假设总共观察了n例病人。第i例病人的生存时间为ti,同时该病人具有Xi1、Xi2、Xip的伴随变量值。Cox提出的比例风险模型是:第i名病人生存到时间t的风险函数(hazard function)是基础风险函数与自变量的函数的乘积。,Cox比例风险模型,h0(t)称为基础风险函数。即当所有的伴随变量都为0时的风
13、险函数。,Cox模型是一个风险比对数的线性模型。,(三)的意义,相对风险度的自然对数;j实际意义是:当伴随变量Xj每改变一个单位时所引起的相对风险度的自然对数的改变量;不仅反映出协变量的作用强度,而且反映它的作用方向。,(四)Cox模型比例风险的含义,假定所有预后因素的作用强度在所有时间上都保持一致;即具有某预后因素的病人的死亡风险和不具有该因素的病人的死亡风险在所有的时间上都保持一个恒定的比例。任两个个体(i,j)风险函数之比,即风险比(risk ratio或hazard ratio, HR)与 无关, 也与时间t无关,即模型中的自变量效应不随时间而改变,称为比例风险假定(PH假定)。,(五
14、)验证等比例的方法,绘制协变量不同水平时的Kaplan-Meier曲线,如果曲线相交,则等比例风险不成立;绘制协变量不同水平时log(log(生存率)与logT的趋势图,如几条线是平行的,则等比例成立;,在模型中增加协变量与时间的交互作用项,考察该交互作用项是否有统计学意义,如无统计学意义,则等比例成立。Schoenfeld残差法:如果Schoenfeld残差与时间t无明显的变化趋势,即残差与时间t无关,则提示符合等比例风险假设。Proc phreg; Proc GPLOT; Model time*status(0)=group; Plot sch*time;Strata age; Run;O
15、utput out=res ressch=sch;,(六)Cox模型参数估计,采用部分最大似然估计(Partial Maximum Likelihood,PML)通常的似然函数是基于结果变量的分布,而Cox模型没有假定任何分布,因此无法建立基于分布的似然函数。Cox模型采用的是基于事件发生顺序而不是联合分布建立的函数,称为部分似然函数。,部分最大似然估计(PML)思想:,考虑如下数据:构建部分似然函数:,部分似然函数的推广:假定有k个发生事件的时间,令Lj表示相应于第j个发生事件时间的似然值,则Cox回归的似然就是这k项的乘积,即令L达到最大的参数值,即为求回归参数的过程,通过对L取对数,对每
16、个参数求偏导数,并令等于0,解方程组即可。,(七)Cox模型参数检验,假设检验方法类似于logistic回归,有似然比检验和Wald检验。两种检验统计量均服从卡方分布,自由度等于模型中参数的个数。(1)Wald检验:,(2)似然比检验大样本情况下,两种方法结果一致,样本较小时不一致,通常似然比检验更加稳定。,等比例Cox回归模型:非等比例Cox回归模型:,(八)非等比例Cox回归模型,参数估计方法,同等比例的Cox回归模型。参数估计值的检验方法,同等比例的Cox回归模型。,如何处理非等比例:(1)分层:将非等比例的变量分层,但作为分层的变量将无法估计其效应。因此一般只用于协变量。(2)分段估计
17、:从交叉点处划分成多个区间,在每个区间内是等比例的,分别对每个区间估计。(3)在模型中加入非等比例变量与时间的交互项。,例题,为探讨某恶性肿瘤的预后,收集了63例病人的生存时间、结局及影响因素。影响因素包括病人的治疗方式、肿瘤的浸润程度、组织学类型、是否有淋巴结转移及病人的性别、年龄,生存时间以月计算,试用Cox模型进行分析。,SAS程序,Proc phreg 选择项;Model response*censor(删失值) =变量/选择项;Run;,Model语句选择项,Selection=method backward forward stepwiseDetails 详细输出每一步过程Incl
18、ude=n 模型中必须包括前n个变量Slentry=p1 slstay=p2 p1p2 Alpha= 置信水平Risklimits 危险比的可信区间,proc phreg data=ex17_5;model t*y(1)=x1-x6 /rl;run;,proc phreg data=ex17_5;model t*y(1)=x1-x6 /rl;run;,(九)应用Cox模型注意事项,对资料的分布类型没有要求;样本量不宜过小,一般在40例以上,变量多时,要求是变量个数的1015倍的阳性结局事件数;要求因素的效应不随时间变化;统计学上有关的因子,不一定有因果关系,可能有伴随关系;,因子之间可能存在相关性,因此结合专业知识和统计分析综合权衡;Cox回归的生存率不同资料间不宜相互比较,因为基础风险函数只在同一份资料中保持相同;,生存曲线不能任意延长,也不能轻易用于预测;Cox模型与logistic回归模型的关系 两者都可以估计相应因素的相对危险度;但logistic回归只考虑了事件的结果且作为二分类变量,而没有考虑生存时间的长短。,Cox回归模型的分析步骤:模型的选取,包括确定自变量;PH假定条件验证;单因素分析;多因素分析;模型诊断(模型拟合优度、残差分析、相关性);统计结论。,五、小结,谢谢,谢谢,