1、第三军医大学军事预防医学院卫生统计学教研室Department of Health statistics ,TMMU Tel:68752343 13996478364授课对象:2010级研究生 任课教员:张彦琦 讲师,医学统计学Medical Statistics,第十六章 Logistic回归分析 Logistic Regression Analysis,Department ofHealth Statistics,卫生统计学教研室 张彦琦,第一节 非条件Logistic回归分析,第二节 条件Logistic回归分析,教学内容,第三节 Logistic回归分析的应用 及注意事项,流行病学概念
2、回顾,Department ofHealth Statistics,卫生统计学教研室 张彦琦,掌握,了解,1. Logistic回归参数估计的基本思想2. Logistic回归系数的假设检验和区间估计方法,教学目标,1. Logistic回归分析结果及解释2. Logistic回归变量筛选方法3. Logistic回归系数的流行病学意义4. Logistic回归的应用及注意事项,理解,非条件Logistic回归和条件Logistic回归的区别,几个重要的流行病学概念,Department ofHealth Statistics,卫生统计学教研室 张彦琦,病因分析(预后分析)的目的:找出影响疾病
3、发生(或预后好坏)的影响因素及其影响的强度。 如果某因素对疾病发生有影响,就称该因素与疾病的发生有关联,关联的强度则反映其对疾病发生影响的大小。,Department ofHealth Statistics,卫生统计学教研室 张彦琦,几个重要的流行病学概念,队列研究(cohort study)病例对照研究(case-control study) 危险度(risk)相对危险度(relative risk, RR) 比数比或优势比(odds ratio, OR),Department ofHealth Statistics,卫生统计学教研室 张彦琦,队列研究,队列研究(cohort study)
4、:对“因”分类上的人群作追踪随访,观察其“果”,然后对资料进行比较分析,从而判断“因”与“果”之间有无关联及关联的强度。,Department ofHealth Statistics,卫生统计学教研室 张彦琦,病例对照研究,病例对照研究(case-control study):是对“果”分类上的人群作回顾性调查,观察其“因”,然后对资料进行比较分析,从而判断“果”与“因”间关联有无统计学意义及关联的强度。,Department ofHealth Statistics,卫生统计学教研室 张彦琦,危险度,危险度( risk) :通常指某个不幸事件发生的概率。危险度大表示发生的可能性大。,某病发病危
5、险度:观察对象在观察期间内发生某病的概率,即某病发病率。,Department ofHealth Statistics,卫生统计学教研室 张彦琦,相对危险度,RR1:表示该因素为危险因素,使发病危险度增大。RR1:表示该因素为保护因素,使发病危险度减小。RR=1:表示该因素对疾病的发病无影响。,相对危险度(relative risk, RR) :暴露于某种危险因子的发病率 pe 与不暴露于该种危险因子的发病率 p0 之比。,Department ofHealth Statistics,卫生统计学教研室 张彦琦,相对危险度,病例对照研究一般不能计算RR。,Department ofHealth
6、Statistics,卫生统计学教研室 张彦琦,比数(odds):发生率与未发生率之比,即 p/(1-p) ,即阳性率/阴性率。比数比(odds ratio, OR) :两个比数之比,即 ,通常在流行病研究中p1为病例组的暴露率,p2为对照组的暴露率。,比数比,对发病率较低的疾病,一般有RROR,Department ofHealth Statistics,卫生统计学教研室 张彦琦,比数比,(对发病率较低的疾病),病例对照研究一般用OR替代RR。,Department ofHealth Statistics,卫生统计学教研室 张彦琦,一个病例对照研究资料,OR,Department ofHea
7、lth Statistics,卫生统计学教研室 张彦琦,医学研究中常碰到应变量的可能取值仅有两个(即二分类变量),如发病与未发病、阳性与阴性、死亡与生存、治愈与未治愈、暴露与未暴露等,显然这类资料不满足多重回归的条件。,什么情况下采用Logistic回归,Department ofHealth Statistics,卫生统计学教研室 张彦琦,目的:作出以多个自变量(危险因素)估计应变量(结果因素)的logistic回归方程。属于概率型非线性回归。资料:1. 应变量为反映某现象发生与不发生的二值变量; 2. 自变量宜全部或大部分为分类变量,可有少数数值变量。分类变量要数量化。,什么情况下采用Lo
8、gistic回归,Department ofHealth Statistics,卫生统计学教研室 张彦琦,用途:研究某种疾病或现象发生和多个危险因素(或保护因子)的数量关系。 用 检验(或u检验)的局限性: 1.只能研究1个危险因素; 2.只能得出定性结论。,什么情况下采用Logistic回归,Department ofHealth Statistics,卫生统计学教研室 张彦琦,种类: 1. 成组(非条件)logistic回归方程。 2. 配对(条件)logistic回归方程。,什么情况下采用Logistic回归,第一节 Logistic回归分析 Logistic Regression,De
9、partment ofHealth Statistics,卫生统计学教研室 张彦琦,实例,表16-1 膀胱癌患者及对照吸烟史资料,Department ofHealth Statistics,卫生统计学教研室 张彦琦,例16-2 为了探讨冠心病发生的有关危险因素,对26例冠心病病人和28例对照者进行病例对照研究,调查记录了8个可能的危险因素,试用Logistic逐步回归分析方法筛选危险因素,并分析各自变量的作用大小。,实例,Department ofHealth Statistics,卫生统计学教研室 张彦琦,表16-2 冠心病8个可能的危险因素与编码说明,实例,Department ofHe
10、alth Statistics,卫生统计学教研室 张彦琦,实例,表16-3 冠心病危险因素病例对照研究原始数据,Department ofHealth Statistics,卫生统计学教研室 张彦琦,Logistic回归模型,在m个自变量的作用下阳性结果发生的概率记作:,Department ofHealth Statistics,卫生统计学教研室 张彦琦,Logistic回归模型,这就摆脱了二值反应变量在一般线性回归分析中可能出现的应变量值域的窘境。,Department ofHealth Statistics,卫生统计学教研室 张彦琦,Logistic曲线,Department ofHea
11、lth Statistics,卫生统计学教研室 张彦琦,常数项: 表示暴露剂量 为0时个体发病与不发病概率之比的自然对数。回归系数: 表示自变量 改变一个单位时Logit(P )的改变量。,模型参数的意义,Logistic模型还有另一种线性化表达形式,称为Logit模型:,Department ofHealth Statistics,卫生统计学教研室 张彦琦,流行病学衡量危险因素作用大小的比数比指标。计算公式为:,模型参数的意义,Department ofHealth Statistics,卫生统计学教研室 张彦琦,模型参数的意义,j 表示 ORj 的自然对数值。,Department ofH
12、ealth Statistics,卫生统计学教研室 张彦琦,模型参数的意义,Department ofHealth Statistics,卫生统计学教研室 张彦琦,模型参数的意义,Department ofHealth Statistics,卫生统计学教研室 张彦琦,logistic回归模型的参数估计,原理:最大似然( likelihood )估计,Department ofHealth Statistics,卫生统计学教研室 张彦琦,可反映某一因素两个不同水平(c1,c0)的优势比。,logistic回归模型的参数估计,Department ofHealth Statistics,卫生统计学
13、教研室 张彦琦,logistic回归模型的假设检验,2.,1.似然比检验: -2lnL近似服从 分布 G = 2(lnL1-lnL0)= 2ln(L1/L0) =p-l,Department ofHealth Statistics,卫生统计学教研室 张彦琦,标准化回归系数,标准化回归系数绝对值越大,说明相应变量的作用越大.,Department ofHealth Statistics,卫生统计学教研室 张彦琦,实例分析,Department ofHealth Statistics,卫生统计学教研室 张彦琦,数据准备成3列:例数、吸烟史(1:有,0:无),膀胱癌(1:有,0:无),实例分析,De
14、partment ofHealth Statistics,卫生统计学教研室 张彦琦,DataWeight cases,实例分析,Department ofHealth Statistics,卫生统计学教研室 张彦琦,AnalyzeRegressionBinary Logistic,实例分析,Department ofHealth Statistics,卫生统计学教研室 张彦琦,应变量编码,模型拟合结果,实例分析,Department ofHealth Statistics,卫生统计学教研室 张彦琦,方法:前进法、后退法和逐步法。检验统计量:不是 F 统计量,而是似然比统计量、 Wald 统计量
15、和计分统计量之一。,变量的筛选,Department ofHealth Statistics,卫生统计学教研室 张彦琦,变量的筛选,例16-2 为了探讨冠心病发生的有关危险因素,对26例冠心病病人和28例对照者进行病例对照研究,调查记录了8个可能的危险因素,试用Logistic逐步回归分析方法筛选危险因素,并分析各自变量的作用大小。,Department ofHealth Statistics,卫生统计学教研室 张彦琦,表16-2 冠心病8个可能的危险因素与编码说明,实例分析,Department ofHealth Statistics,卫生统计学教研室 张彦琦,实例分析,表16-3 冠心病危
16、险因素病例对照研究原始数据,Department ofHealth Statistics,卫生统计学教研室 张彦琦,由标准化回归系数可以看出,选入的四个危险因素按其影响大小排列的顺序为X6、X8、X5、X1, 它们分别是动物脂肪摄入量、A型性格、高血脂史和年龄增高。,实例分析,第二节 条件Logistic回归分析Conditional Logistic Regression,Department ofHealth Statistics,卫生统计学教研室 张彦琦,条件Logistic回归的原理,条件Logistic回归(conditional Logistic regression)是针对配对或
17、分层资料分析的一种方法。为了控制一些重要的混杂因素(如性别和年龄等),流行病学常采用1:M配对的研究方法,即每一个病例与M个与它条件相一致的对照形成一个匹配组(每一匹配组为一个层)。条件Logistic回归,其实质是在构造似然函数时利用适当的条件分布,实现在各层中进行比较。,Department ofHealth Statistics,卫生统计学教研室 张彦琦,表16-5 1: M 条件logistic回归数据的格式,* t = 0 为病例,其他为对照,1:M数据格式,Department ofHealth Statistics,卫生统计学教研室 张彦琦,条件Logistic回归模型,Depa
18、rtment ofHealth Statistics,卫生统计学教研室 张彦琦,实例分析,例16-3 某市调查三种生活方式与胃癌发病的关系,采用1:1配对的病例对照研究形式。按每个病例的性别、年龄和居住地选取一个健康作为对照。调查的三种生活方式取值见表16-7,共调查了50对病例与对照。试作条件Logistic逐步回归分析。,表16-7 三种生活方式取值,Department ofHealth Statistics,卫生统计学教研室 张彦琦,数据准备成4列:X1、X2、X3,配对号及疾病发生情况Y(1:病例,0:对照)。,实例分析,Department ofHealth Statistics,
19、卫生统计学教研室 张彦琦,模型拟合结果,显然,存在不显著的变量,可以进行逐步回归分析。,实例分析,Department ofHealth Statistics,卫生统计学教研室 张彦琦,实例分析,第三节 Logistic回归的应用 及注意事项,Department ofHealth Statistics,卫生统计学教研室 张彦琦,logistic回归分析的特点之一是参数意义清楚,即得到某一因素的回归系数后,可以很快估计出这一因素在不同水平下的优势比OR或近似相对危险度RR,因此非常适合于流行病学研究。logistic回归既适合于队列研究(cohort study),也适合于病例-对照研究(ca
20、se-control study),同样还可以用于横断面研究(cross-sectional study),logistic回归的应用,Department ofHealth Statistics,卫生统计学教研室 张彦琦,临床试验的目的大多是为了评价某种药物或治疗方法的效果,如果有其他影响效果的非处理因素(如年龄、病情等)在试验组和对照组中分布不均衡,就有可能夸大或掩盖试验组的治疗效果。 当非处理因素过多时,可能会遇到各层样本量过小和非处理因素在试验组和对照组内的分布不均衡的问题。用单因素分析很难保证对比组间的齐同性。当评价指标为二值变量时(如有效和无效),可以利用logistic回归分析得
21、到调整后的药物评价结果。,logistic回归的应用,Department ofHealth Statistics,卫生统计学教研室 张彦琦,在一些药物或毒物效价的剂量-反应实验研究中,每一只动物药物耐受量可能有很大的不同,不同剂量使动物发生“阳性反应”的概率分布常呈正偏态,将剂量取对数后则概率分布接近正态分布。由于正态分布函数与logistic分布函数十分接近,如果用P表示在剂量为X时的阳性率,可用下述模型表示它们之间的关系,用这一模型可以求出任一剂量的阳性反应率,传统的一些方法往往对实验设计有严格的要求,如剂量按等比级数排列,各剂量组的例数必须相同等, 采用logistic回归的方法则没有
22、这些限制。,logistic回归的应用,Department ofHealth Statistics,卫生统计学教研室 张彦琦,logistic回归是一个概率型模型,因此可以利用它预测某事件发生的概率。例如在临床上可以根据患者的一些检查指标,判断患某种疾病的概率有多大。,logistic回归的应用,Department ofHealth Statistics,卫生统计学教研室 张彦琦,Logistic回归的样本量,Logistic回归要求有足够的样本含量,样本含量愈大分析结果愈可靠。实际中病例和对照的人数应至少各有2030例,方程中的变量个数愈多需要的例数也就愈大。对于配对资料,一般样本的匹配
23、组数应为纳入方程中的自变量个数的20倍以上。,Department ofHealth Statistics,卫生统计学教研室 张彦琦,logistic回归变量的数量化,连续型变量以原始观察值或通过某种数据变换的形式出现,此时exp(b)表示每增加1单位的相对危险度,不一定有实际意义;将连续变量按不同区间分成若干组,按1,2,g给分,然后按连续变量进行处理。则exp(b)表示平均增加一段的相对危险度。将连续变量按不同区间分成若干组后,化作哑变量处理。无序分类变量:化成若干个哑变量有序分类变量:按连续变量的方式处理或哑变量,Department ofHealth Statistics,卫生统计学教
24、研室 张彦琦,j 的值并不具有OR或RR的直接含义,它只是OR或RR的自然对数值。j 的正负号与危险因素的赋值方式有密切联系,因此应结合Xj 具体的赋值方式来理解Xj 对所研究疾病的影响。各j 的绝对值大小并不直接表明各危险因素Xj 对疾病发生的相对重要性,这是由于各Xj 的量纲不同。如果要比较各危险因素对疾病影响作用的相对大小,应使用标准化Logistic回归系数j 。由病例对照资料作Logistic回归得到的模型不能直接用于发病概率的估计(此时,得到的是暴露率),而队列研究得到的Logistic回归模型可以用于发病率估计。,Logistic回归系数的理解,Department ofHeal
25、th Statistics,卫生统计学教研室 张彦琦,本章小结,目的:作出以多个自变量(危险因素)估计应变量(结果因素)的logistic回归方程。属于概率型非线性回归。资料:1. 应变量为反映某现象发生与不发生的二值变量; 2. 自变量宜全部或大部分为分类变量,可有少数数值变量。分类变量要数量化。,用途:研究某种疾病或现象发生和多个危险因素(或保护因子)的数量关系。,种类: 1. 成组(非条件)logistic回归方程。 2. 配对(条件)logistic回归方程。,Department ofHealth Statistics,卫生统计学教研室 张彦琦,本章小结,对队列研究资料,Logistic回归模型直接给出发病概率估计,而对病例对照研究资料则不能给出概率估计,但可提示可能存在的危险因素。配对病例对照研究资料必须应用条件Logistic回归分析。,模型: Logistic回归模型是一个概率型的回归模型。,应用:,Department ofHealth Statistics,卫生统计学教研室 张彦琦,Thank You !,学习愉快!,