1、生存分析结课论文关于乳腺癌术后生存情况与患者年龄的研究 班级:姓名:学号:2016 年 5 月 7 日目录摘要本文讨论45岁以上乳腺癌患者的术后生存状况。对44名45岁以上的乳腺癌患者的资料进行回顾性分析,按年龄分为两组,其中A组(50岁,25例),B组( 50岁,19例),探讨 乳腺癌患者术后生存情况与患者年龄间的关系。结果 有统计学意义(P001)。年龄是乳腺癌的一个独立预后变量,但乳腺癌的其他影响患者生存状况因素如:临床分期、淋巴结转移、病理类型、手术方式对乳腺癌患者的影响也是不容忽视的。关键词 生存分析 乳腺癌 年龄 Kaplan-Meier 估计 Nelson-Aalen 估计 Co
2、x 模型1.问题的提出乳腺癌是女性最常见的恶性肿瘤之一。且发病率呈逐年上升的趋势,在欧美国家,乳腺癌占女性恶性肿瘤的25%-30%.乳腺癌常发病于停经妇女,我国则常见于绝经前妇女,4550岁发病率较高。中老年妇女是乳腺癌发病的主要对象。发病年龄较欧美国家年轻10岁左右。由文献报道年龄是一个对复发率有影响的独立因素,年龄在45-50岁的患者复发率增加,为比较不同年龄乳腺癌术后生存状况的差别。本文从生存状况变化的角度做生存性分析,探讨乳腺癌术后生存情况与患者间年龄关系。2.数据的来源选取患乳腺癌的 44 名妇女,初治均为手术治疗,分为两组。A组为年龄在 45 岁到 50 岁的患者,B 组为年龄在
3、50 岁以上的患者。5 年后得到下列复发时间。时间(月)数据来源于生存数据分析的统计方法 A 组 4 5 9 16 12 13 10 23 28 29 31 32 47 41 41 57 62 74 100 139 20+ 258+ 269+B 组 8 10 10 12 14 20 48 70 75 99 105 162 169 195 220 161+ 199+ 217+ 245+3.模型方法介绍和总结3.1 生存时间函数描述生存时间分布规律的函数主要有生存函数、死亡概率函数、概率密度函数和危险率函数。为了后文叙述方便,这里主要介绍生存函数和危险率函数。3.1.1 生存函数在描述生存规律的数
4、量指标中,以往常用的指标是某个特定时间的生存率(例如: 3年生存率、5 年生存率) 。这一指标的主要缺陷为不能反映整个生存规律,一个理想的指标应该是任意时间的生存率,即生存率是任意时刻 t 的函数。其意义是研究个体生存时间长于 t 的概率。若令 T 为生存期,s(t)为任意时刻 t 的生存率,得(3.1 )t0 t)P(=St)则称 为生存率函数,简称生存函数。(t从 T 的分布函数 可知,)(tF(3.2 ))(1)(tFtS将 对 在直角坐标系作图画出生存率曲线,陡峭的生存曲线表示低的生存率或的生存)(tS时间。另外,从图上可粗略估计出中位生存时间,即生存曲线上取生存率为 50%时所对应的
5、时间。3.1.2 危险率函数(Hazard Function)如果我们考虑已活到 t 时刻的患者,在时间 t 附近的瞬间死亡危险性,根据数学上极限性质,可表示为:h(t)= (3.3)0tlimt)tTt(则称 h(t)为危险率函数。即相当于条件瞬间死亡率。3.1.3 S(T)与 h(t)的关系其中 ,称 H(t)为累计危险率函数。)()(0)(tHduhetSt tduh0)(生存函数 和危险率函数 在不同的生存时间分布中(例如 Weibull、log logistict)(t等)有着特定的函数形式。3.2.1 生存函数的估计非参数法对生存数据的分布型没有相应的要求,因而适用面比较广。医学研
6、究中,大量的生存数据其分布是不规则、不确定或未知分布,因而常用非参数法估计生存率。根据样本含量的大小可分别选择寿命表法或乘积限估计法。Nelson-Aalen 估计在有删失的情况下,可以根据累积死亡率与生存函数的关系来估计累积死亡力函数 H(t)。这时估计式为: 。另外有()ln()HtSt ()ln()HtSt一个累积死亡 力估计式,它与以乘积限估计式为基础的估计式相比,具有更好的小样本性质,这一估计式由 Nelson 建议,然后由 Aalen 重新发现并加以改进,这就是 Nelson-Aalen 估计式,即在最大的时间观察范围内的定义如下: 0,()i ittHdy:该估计式的方差可以从下
7、式得到: 22()iiHitdy以累积死亡率的 Nelson-Aalen 估计式为基础,生存函数的另一个估计式为:。()exp()SttNelson-Aalen 估计式在分析数据时主要有以下两方面的应用,其一是在选择事件发生时间的参数模型方面的应用,其二是为死亡率 h(t)提供粗估计,这些估计值是 Nelson-Aalen 估计式的斜率。3.2.1.2 乘积限估计法当数据个体较少时,为充分利用每个数据的信息,必须采用更为精确的估计方法。这些估计方法中应用最多、效率较高的是 Kaplan-Meier 在 1958 年提出的乘积限估计(Product-limit estimator)。因而此法又称
8、 Kaplan-Meier 法。乘积极限法适用于离散数据,它用于建立时刻 t 上的生存函数。它的原理是根据 时刻t及其之前各时间点上的条件生存率的乘积,来估计时刻 的生存函数 和它的标准误)(tS。设 代表 个观察对象的生存时间,设 为 时刻之前生存的个)(tSEktt.21 in体数目,即危险集的大小 ,再设 表示生存时间的截尾性质, 。),.1(iidki,.21又令 表示观察对象在时刻 的条件生存率,即对于 ,有:iPit k,.21,其中iindp是 截 尾 数 据个 生 存 时 间如 果 第 是 完 全 数 据个 生 存 时 间如 果 第 ii ti,01那么,观察对象在时刻 时的条
9、件死亡率如下:it iipq1对于 ,Kaplan-Meier 法定义时刻 上的生存函数和它的标准误的估计公式如下:ki,.21itkiptSiki ,.21,0kipnqttEikki ,.21,)()(0该法的基本思想与寿命表法基本相同,所不同的是将生存时间(包括截尾数据)逐个由小 到 大依次排列,并对其中的每个死亡点进行死亡概率、生存概率和生存率进行估计。3.2 生存率估计与组间比较3.2.2 生存率的组间比较在医学随访研究中,通常将病人按随机化方法分配到两种或多种治疗组中,然后随访观察和比较其生存时间的长短和生存率的大小,以此来考察各种治疗方案的优劣;或者分析和比较同一治疗方案下具有不
10、同特征病人的生存率的大小,以此来探讨影响这种疗法的因素。因此,生存率组间比较实际上是两条或多条生存曲线的比较。生存率的假设检验方法有参数法和非参数法两类。参数法要求生存时间已知服从于某种概率分布,对实际资料拟合分布并求得其相应的参数,然后通过比较不同组的分布参数来比较生存率是否相同。非参数法对资料的分布没有要求,适用面比较广。常见的有 Log-rank 检验、Wilcoxon 检验(Gehan 检验)和似然比检验,似然比检验要求资料服从指数分布才有效。这里主要介绍Log-rank 检验和 Wilcoxon 检验两种方法。1. 对数秩和检验 log-rank 检验Log-rank 检验是 Man
11、tel 等人在 1966 年提出的,这种方法是在组间生存率相同的检验假设(H0 )下,对每组生存数据依据在各个时刻尚存活的患者数和实际死亡数计算期望死亡数,然后将期望死亡数与实际死亡数进行比较,作假设检验。这种方法可适合两组或多组生存率比较。这种方法在两组生存率比较时,计算比较简单。Log-rank 检验的渐进平均值 E 和方差 V:111/2121112=kkkkdKkikiidiikdKiikiikkiikiiVnh分别为实验组和对照组在第 K 时间间隔第 i 个病人死亡前生存的12kiin、人数, 分别为实验组和对照组在第 K 时间间隔第 i 个病人死亡前的死亡kh、危险率, 为第 k
12、个时间间隔的死亡人数。d设 ,则 ,/,kkdd()EeDd其中, , ,1/2()KikikeD1iii21ii将 log-rank 统计量的分布视作 N(E,1) ,有:/2根据区间上两组概率分配向量中的治愈率,很容易求出所需总样本含量: /()ECndP式中, 为试验组和对照组的事件发生率。ECP、在随访研究中,样本含量除受统计学要求及治疗效果影响外,还有许多不确定性影响因素,例如患者入组、失访、治愈时间的分布,患者在试验阶段的依从性,以及是否满足比例风险等等。Log-rank 检验除考虑最后结局,还考虑了出现结局的时间,并充分利用失访资料所提供的不完全信息。对于具体的试验,本法都能拟合
13、一个独特的生存过程,较好反应实际情况,应用灵活,因此是一种有效、可行的样本含量估计方法,能更好适应临床试验的复杂性和多样性,巧妙解决多种复杂因素并存对样本含量的影响问题。2. Wilcoxon 检验法当 g=1,2,g,m 时, Wilcoxon 检验法 2 统计量计算公式仍可表示为: 2=s v-1s =m-1其中 s =(s1,s2,sg,sm-1), s为向量 s 的转置。S g 的计算公式为:sg= (11.21)li iigindw1)/(V 为(m-1)(m-1) 矩阵,记为 V=Vgh(m-1)(m-1) Vgh 的计算公式为:Vgh= (11.22) li iiiighgihi ndn1 22 )1(/)()(上面 sg 和 vgh 计算公式中 wi 为权重,这里 wi=nI。