分类资料的回归分析.DOC

上传人:国*** 文档编号:827902 上传时间:2018-11-02 格式:DOC 页数:15 大小:304.50KB
下载 相关 举报
分类资料的回归分析.DOC_第1页
第1页 / 共15页
分类资料的回归分析.DOC_第2页
第2页 / 共15页
分类资料的回归分析.DOC_第3页
第3页 / 共15页
分类资料的回归分析.DOC_第4页
第4页 / 共15页
分类资料的回归分析.DOC_第5页
第5页 / 共15页
点击查看更多>>
资源描述

1、第十一章 分类资料的回归分析Regression 菜单详解(下)(医学统计之星:张文彤)上次更新日期: 10.1 Linear 过程10.1.1 简单操作入门10.1.1.1 界面详解10.1.1.2 输出结果解释10.1.2 复杂实例操作10.1.2.1 分析实例10.1.2.2 结果解释10.2 Curve Estimation 过程10.2.1 界面详解10.2.2 实例操作10.3 Binary Logistic 过程10.3.1 界面详解与实例10.3.2 结果解释10.3.3 模型的进一步优化与简单诊断10.3.3.1 模型的进一步优化10.3.3.2 模型的简单诊断 在很久很久以

2、前,地球上还是一个阴森恐怖的黑暗时代,大地上恐龙横行,我们的老祖先类人猿惊恐的睁大了双眼,围坐在仅剩的火堆旁,担心着无边的黑暗中不知何时会出现的妖魔鬼怪,没有电视可看,没有网可上.我是疯了,还是在说梦话?都不是,类人猿自然不会有机会和恐龙同时代,只不过是我开机准备写这一部分的时候,心里忽然想到,在 10 年前,国内的统计学应用上还是卡方检验横行,分层的 M-H 卡方简直就是超级武器,在流行病学中称王称霸,更有那些 1:M 的配对卡方,N:M 的配对卡方,含失访数据的N:M 配对卡方之类的,简直象恐龙一般,搞得我头都大了。其实恐龙我还能讲出十多种来,可上面这些东西我现在还没彻底弄明白,好在社会进

3、步迅速,没等这些恐龙完全统制地球,Logistic 模型就已经飞速进化到了现代人的阶段,各种各样的 Logistic 模型不断地在蚕食着恐龙爷爷们的领地,也许还象贪吃的人类一样贪婪的享用着恐龙的身体。好,这是好事,这里不能讲动物保护,现在我们就远离那些恐龙,来看看现代白领的生活方式。特别声明:我上面的话并非有贬低流行病学的意思,实际上我一直都在做流行病学,我这样写只是想说明近些年来统计方法的普及速度之快而已。据我一位学数学的师兄讲,Logistic 模型和卡方在原理上是不一样的,在公式推演上也不可能划等号,只是一般来说两者的检验结果会非常接近而已,多数情况下可忽略其不同。10.3 Binary

4、 Logistic 过程所谓 Logistic 模型,或者说 Logistic 回归模型,就是人们想为两分类的应变量作一个回归方程出来,可概率的取值在 01 之间,回归方程的应变量取值可是在实数集中,直接做会出现 01 范围之外的不可能结果,因此就有人耍小聪明,将率做了一个 Logit 变换,这样取值区间就变成了整个实数集,作出来的结果就不会有问题了,从而该方法就被叫做了 Logistic 回归。随着模型的发展,Logistic 家族也变得人丁兴旺起来,除了最早的两分类Logistic 外,还有配对 Logistic 模型,多分类 Logistic 模型、随机效应的Logistic 模型等。由

5、于 SPSS 的能力所限,对话框只能完成其中的两分类和多分类模型,下面我们就介绍一下最重要和最基本的两分类模型。10.3.1 界面详解与实例例 11.1 某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取 26 例资料作为示例进行 logistic 回归分析(本例来自卫生统计学第四版第 11 章)。 i: 标本序号 x1:确诊时患者的年龄(岁) x2:肾细胞癌血管内皮生长因子(VEGF),其阳性表述由低到高共 3 个等级 x3:肾细胞癌组织内微血管数(MVC) x4:肾癌细胞核组织学分级,由低到高共 4 级 x5:肾细胞癌分期,由低到

6、高共 4 期 y: 肾细胞癌转移情况(有转移 y=1; 无转移 y=0)。 i x1 x2 x3 x4 x5 y1 59 2 43.4 2 1 02 36 1 57.2 1 1 03 61 2 190 2 1 04 58 3 128 4 3 15 55 3 80 3 4 16 61 1 94.4 2 1 07 38 1 76 1 1 08 42 1 240 3 2 09 50 1 74 1 1 010 58 3 68.6 2 2 011 68 3 132.8 4 2 012 25 2 94.6 4 3 113 52 1 56 1 1 014 31 1 47.8 2 1 015 36 3 31.

7、6 3 1 116 42 1 66.2 2 1 017 14 3 138.6 3 3 118 32 1 114 2 3 019 35 1 40.2 2 1 020 70 3 177.2 4 3 121 65 2 51.6 4 4 122 45 2 124 2 4 023 68 3 127.2 3 3 124 31 2 124.8 2 3 025 58 1 128 4 3 026 60 3 149.8 4 3 1在菜单上选择 Analyze=Regression=Binary Logistic.,系统弹出Logistic 回归对话框如下:左侧是候选变量框,右上角是应变量框,选入二分类的应变量,下

8、方的Covariates 框是用于选入自变量的,只不过这里按国外的习惯被称为了协变量。两框中间的是 BLOCK 系列按扭,我在上一课已经讲过了,不再重复。中下部的a*b框是用于选入交互作用的,和其他的对话框不太相同(我也不知道为什么SPSS 偏在这里做得不同),下方的 Method 列表框用于选择变量进入方法,有进入法、前进法和后退法三大类,三类之下又有细分。最下面的四个按钮比较重要,请大家听我慢慢道来:o Select钮:用于限定一个筛选条件,只有满足该条件的记录才会被纳入分析,单击它后对话框会展开让你填入相应的条件。不过我觉得该功能纯属多余,和专门的 Select 对话框的功能重复了。 o

9、 Categorical 钮:如果你的自变量是多分类的(如血型等),你必须要将它用哑变量的方式来分析,那么就要用该按钮将该变量指定为分类变量,如果有必要,可用里面的选择按钮进行详细的定义,如以哪个取值作为基础水平,各水平间比较的方法是什么等。当然,如果你弄不明白,不改也可以,默认的是以最大取值为基础水平,用 Deviance 做比较。 o Save 钮:将中间结果存储起来供以后分析,共有预测值、影响强度因子和残差三大类。 o Options 钮:这一部分非常重要,但又常常被忽视,在这里我们可以对模型作精确定义,还可以选择模型预测情况的描述方式,如Statistics and Plots 中的

10、Classification plots 就是非常重要的模型预测工具,Correlations of estimates 则是重要的模型诊断工具,Iteration history 可以看到迭代的具体情况,从而得知你的模型是否在迭代时存在病态,下方则可以确定进入和排除的概率标准,这在逐步回归中是非常有用的。 好,根据我们的目的,应变量为 Y,而 X1X5 为自变量,具体的分析操作如下:1. Analyze=Regression=Binary Logistic. 2. Dependent 框:选入 Y 3. Covariates 框:选入 x1x5 4. OK 钮:单击 10.3.2 结果解释L

11、ogistic Regression上表为记录处理情况汇总,即有多少例记录被纳入了下面的分析,可见此处因不存在缺失值,26 条记录均纳入了分析。上表为应变量分类情况列表,没什么好解释的。Block 0: Beginning Block此处已经开始了拟合,Block 0 拟合的是只有常数的无效模型,上表为分类预测表,可见在 17 例观察值为 0 的记录中,共有 17 例被预测为 0,9 例 1 也都被预测为 0,总预测准确率为 65.4%,这是不纳入任何解释变量时的预测准确率,相当于比较基线。上表为 Block 0 时的变量系数,可见常数的系数值为-0.636。上表为在 Block 0 处尚未纳

12、入分析方程的侯选变量,所作的检验表示如果分别将他们纳入方程,则方程的改变是否会有显著意义(根据所用统计量的不同,可能是拟合优度,Deviance 值等)。可见如果将 X2 系列的哑变量纳入方程,则方程的改变是有显著意义的,X4 和 X5 也是如此,由于 Stepwise 方法是一个一个的进入变量,下一步将会先纳入 P 值最小的变量 X2,然后再重新计算该表,再做选择。Block 1: Method = Forward Stepwise (Conditional)此处开始了 Block 1 的拟合,根据我们的设定,采用的方法为 Forward(我们只设定了一个 Block,所以后面不会再有 Bl

13、ock 2 了)。上表为全局检验,对每一步都作了 Step、Block 和 Model 的检验,可见 6 个检验都是有意义的。此处为模型概况汇总,可见从 STEP1 到 STEP2,DEVINCE 从 18 降到 11,两种决定系数也都有上升。此处为每一步的预测情况汇总,可见准确率由 Block 0 的 65%上升到了84%,最后达到 96%,效果不错,最终只出现了一例错判。上表为方程中变量检验情况列表,分别给出了 Step 1 和 Step 2 的拟合情况。注意 X4 的 P 值略大于 0.05,但仍然是可以接受的,因为这里用到的是排除标准(默认为 0.1),该变量可以留在方程中。以 Ste

14、p 2 中的 X2 为例,可见其系数为 2.413,OR 值为 11。上表为假设将这些变量单独移出方程,则方程的改变有无统计学意义,可见都是有统计学意义的,因此他们应当保留在方程中。最后这个表格说明的是在每一步中,尚未进入方程的变量如果再进入现有方程,则方程的改变有无统计学意义。可见在 Step 1 时,X4 还应该引入,而在Step 2 时,其它变量是否引入都无关了。10.3.3 模型的进一步优化与简单诊断10.3.3.1 模型的进一步优化前面我们将 X1X5 直接引入了方程,实际上,其中 X2、X4、X5 这三个自变量为多分类变量,我们并无证据认为它们之间个各等级的 OR 值是成倍上升的,严格来说,这里应当采用哑变量来分析,即需要用 Categorical 钮将他们定义为分类变量。但本次分析不能这样做,原因是这里总例数只有 26 例,如果引入哑变量模型会使得每个等级的记录数非常少,从而分析结果将极为奇怪,无法正常解释,但为了说明哑变量模型的用法,下面我将演示它是如何做的,毕竟不是每个例子都只有 26 例。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 重点行业资料库 > 1

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。