1、单独二分类 Logit 模型在有序分类资料中的应用作者:林党新 许涛 沈念春 赖胜 邓政伟【摘要】 目的:通过幽门螺杆菌与胃癌癌前病变关系研究的资料,探讨单独二分类 Logit 模型中有序分类资料中的应用。方法: 选择 293名患有轻度萎缩性胃炎的患者,对病变进展的影响因素分析分别采用累积比数 Logit 模型和单独的二分类 Logit 模型,并对两种模型的分析结果进行比较。结果:累积比数 Logit 模型分析结果显示幽门螺杆菌感染对胃癌癌前病变的影响无统计学意义(OR=1.158,95%CI:0.9862.464),但得分检验发现幽门螺杆菌不满足累积比数 Logit 模型的比例优势假定条件(
2、2=24.100,P0.0001),故采用单独的二分类 Logit 模型进一步分析。结果表明,幽门螺杆菌阳性者比阴性者有更高的危险至少进展到重度萎缩性胃炎(OR=2.334,95%CI:1.4023.885)。结论:幽门螺杆菌感染主要作用于胃癌癌前病变的早期阶段。对于有序分类资料的分析,选用模型时应注意其应用条件,若条件不满足最好换用其它更为恰当的方法。 【关键词】 胃癌癌前病变; 幽门螺杆菌; 累积比数 Logit 模型; 单独的二分类 Logit 模型有序分类资料最常用的分析方法是累积比数 Logit 模型1,对多分类有序反应资料,如果采用一般的二分类 Logit 模型,而不是累积比数Lo
3、git 模型,只能获得 50%70%的检验效能2,说明在处理有序分类数据方面,累积比数 Logit 模型要优于二分类 Logit 模型。近几年累积比数 Logit 模型在国内应用领域有所增多,但不少忽略了模型的使用条件,盲目套用,以致影响所得结论的可靠性。本研究通过累积比数 Logit 模型在实际数据分析中的应用,说明了忽视模型应用条件所产生的后果,并介绍了如何选择恰当的分析方法。1 资料与方法1.1 资料来源资料来源于 1 项茂名市某医院的队列研究数据,该研究选择了 360名轻度慢性萎缩性胃炎(CAG)患者,根据他们的幽门螺杆菌(Hp)感染情况分为阴性组和阳性组两组人群,随访 3 年后重新进
4、行病理学诊断,观察他们的病变情况。1.2 胃黏膜病理诊断用胃内窥镜观察胃黏膜病变,并在胃体大小弯、胃角、胃窦大小弯、前后壁各取胃黏膜活检组织 1 块。病理切片照全国胃、十二指肠活检、病理诊断标准进行诊断。每个受检对象以最严重病变为第一诊断。1.2 统计分析方法累积比数 Logit 模型的形式为3:Logit(P(Yk|X)=ln(P(Yk|x)1-P(Yk|x)=ak-pi=1ixi ,k=1,2,K-1。 (1)反应变量 Y 为 K 个等级的有序变量,第 k(k=1,2,K)类的概率分别为1,2,k,且Kk=1k=1 。影响因素 xT=(x1,x2,xP)为解释变量,xi(i=1,2,p)可
5、以是连续变量、无序或有序分类变量。则该模型实际上是将 K 个等级人为地分成1,k 和k+1,K两类,在这两类基础上定义的 Logit P 表示属于前 k 个等级的累积概率(P(Yk|x)与后 K-k 个等级的累积概率(1-P(Yk|x)的比数之对数。故该模型称为累积比数模型,其应用有一个基本的假定条件,即比例优势假定(proportional odds assumption)。这一条件要求自变量的回归系数应与分割点 k 无关,换句话说,无论从哪一点分类,对所有的累积logit,变量 xk 都有一个相同的 k 估计。单独的二分类 logit 模型(separate binary logistic
6、 modes)主要是把反应变量按照不同分割点合并为不同的二类,然后分别进行二分类的 Logistic 回归分析4。本研究中的反应变量为随访 5 年后的病变,分为轻度 CAG、重度 CAG、肠上皮化生(IM)、不典型增生(DYS)共 4 类,有 3 个分割点,故定义为 3 个二分类 Logit:一是将 IM、重度 CAG 和轻度 CAG 合并,即DYSVSIM,重度 CAG,轻度 CAG,表示至少进展到 DYS;二是将 DYS 和 IM 合并,重度 CAG 和轻度 CAG 合并,即DYS,IMVS重度CAG,轻度 CAG,表示至少进展到 IM;三是将 DYS、IM 和重度 CAG 合并,即DYS
7、,IM,重度 CAGVS轻度 CAG,表示至少进展到重度 CAG。然后以上述分类分别作 3 次二分类的 logistic 回归分析。整个分析过程均由 SAS 8.2(SAS Institute, Cary,N.C.)来完成5。2 结果经 3 年随访后,共 67 人因各种原因失访,293 人具有可供分析的完整资料。其中,118 人病变仍为轻度 CAG,91 人进展为重度 CAG,49 人进展为 IM,35 人进展为 DYS。具体进展情况见表 1。累积比数 Logit 模型分析结果表明(表 2),除性别因素外,其他因素对胃癌癌前病变的影响均无统计学意义。但从得分检验(score test)结果来看
8、(表 3),Hp 不满足比例优势假定条件(2=24.100,P0.0001),也就是说,在反应变量的不同分割点上,Hp 的估计值不同。由于基本假定条件违背,该资料采用累积比数 Logit模型分析未必合适。表 1 293 人随访 5 年后的病变进展情况表 2 累积比数 Logit 模型的参数估计结果表 3 比例优势假定检验结果为了核实结果的正确性,并充分利用该资料有序的特点,故采用单独的二分类 Logit 模型进一步分析(表 4),可以看出,年龄、性别、吸烟、饮酒这四个变量在不同分割点的 OR 值相差不大,而 Hp 的 OR 值则差别很大。把 DYS、IM 和重度 CAG 合并为一类(即“至少进
9、展为重度 CAG”)时,Hp 的影响有统计学意义(OR=2.334,95%CI:1.4023.885)。而对“至少进展到 DYS”和“至少进展到 IM”的影响则无统计学意义。表 4 单独二分类 Logit 模型分析结果3 讨论本次研究结果显示,年龄、性别、吸烟、饮酒对胃癌癌前病变的进展无影响。在校正上述因素的影响后,Hp 感染主要作用于胃癌癌前病变的早期阶段,Hp 阳性者至少进展到重度 CAG 的可能性是 Hp 阴性者的2.334 倍(OR=2.334,95%CI:1.4023.885),而对进展到更高级的病变如 IM、DYS,则 Hp 阳性与阴性并无差别。这与有学者提出的 Hp 主要作用于胃
10、癌癌前病变的早期阶段的结论是一致的6,7。累积比数 Logit 模型是分析有序分类资料最常用的方法,但其应用需要满足一定的条件,其中一个基本条件就是比例优势假定条件,即自变量的回归系数应与分割点 k 无关。对于一个自变量 xk 而言,不同累积比数发生比的回归线相互平行,只是截距参数有所差别。以往有人认为,累积比数 Logit 模型对这一条件并不敏感,但在实际中,这一条件不满足往往容易导致错误的结论,本研究即证明了这一点。Ralf 也曾对这一问题进行了探讨8,并指出,如果不满足比例优势假定条件,最好采用单独的二分类 Logit 模型进行分析,否则做出的结论往往给人以误导甚至是毫无意义的。本研究发
11、现资料不满足比例优势假定条件,因此采用了简单且易于理解的单独的二分类 Logit 模型进一步分析。结果表明,尽管 Hp 对进展到更高级的病变(IM、DYS)无影响,但对至少进展到重度 CAG 的影响有统计学意义,即 Hp 主要作用于胃癌癌前病变的早期阶段。如果忽略比例优势假定条件的检验,接受累积比数 Logit 模型的分析结果,便会得出相反的结论。当有序分类资料不满足比例优势假定条件时,还有其它一些方法可供选择9,如 stereotype 模型、偏比例优势模型(partial proportional odds models)等10。这些方法都是基于累积 Logits 计算的,因而可与单独的二
12、分类 Logit 模型直接比较,但其计算过程繁琐,且结果的解释不如单独的二分类 Logit 模型易于理解。多项 Logit 模型(polytomous logits models)是基于广义 Logits 计算的,其计算过程和结果解释均与单独的二分类 Logit 模型不同,因而二者不可直接比较,一般也不作为比例优势假定条件不满足时的首选方法。总之,对于有序分类资料的分析,应先看其是否满足模型的使用条件,如不满足,最好换用其它更为合适的方法。本次研究一开始采用累积比数 Logit 模型分析,结果显示 Hp 对胃癌癌前病变的影响无统计学意义,这实际上是由于 Hp 不满足比例优势假定条件所致。在利用
13、单独的二分类 Logit 模型作进一步详细分析后,则可以发现,Hp 阳性者至少进展到重度 CAG 的危险显著高于 Hp 阴性者。【参考文献】1 McCullagh P.Regression Models for Ordinal Data (with Discussion). J.R.Stat Soc,1980,42:109.2 BG Amstrong,M Sloan.Ordinal Regression Models for Epidemiologic Data.Am J of Epidemiology,1989,129:191204.3 Ludwig Fahrmeir,Gerhard Tut
14、z.Multivariate Statistical Modeling Based on Generalized Linear Models.Beijing:World Publishing Cooperation,1998,7579.4 Ralf Bender,Ulrich Grouven.Using Binary Logistic Regression Models for Ordinal Data with Non-proportional Odds.Journal of Clinical Epidemiol,1998,51:809816.5 Ralf Bender, Axel Bend
15、er.Calculating Ordinal Regression Models in SAS and SPlus.Biometrical Journal,2000,42:677699.6 Kunio Takeuchi, Yoshihiro Ohno, Yasushi Tsuzuki, etc. Helicobacter pylori Infection and Early Gastric Cancer.J Clin Gastroenterol, 2003,36:321324.7 夏志伟,林三仁.幽门螺杆菌与胃癌.幽门螺杆菌感染的基础与临床(修订版).北京:中国科学技术出版社, 2002, 1
16、72178.8 Ralf Bender, Ulrich Grouven.Ordinal Logistic Regression in Medical research.Journal of the Royal College of Physicians of London,1997,31:546551.9 R Lall,MJ Campbell.A Review of Ordinal Regression Models Applied to Healthrelated Quality of Life Assessments.Statistical Methods in Medical Research,2002,11:4967.10 Peterson B, Harrell F. Partial proportional odds model for ordinal response variables. Applied statistics,1990,39: 205217.
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。