1、-_如何用 spss17.0 进行二元和多元 logistic 回归分析一、二元 logistic 回归分析二元 logistic 回归分析的前提为因变量是可以转化为 0、1 的二分变量,如:死亡或者生存,男性或者女性,有或无,Yes 或 No,是或否的情况。下面以医学中不同类型脑梗塞与年龄和性别之间的相互关系来进行二元 logistic 回归分析。(一)数据准备和 SPSS 选项设置第一步,原始数据的转化:如图 1-1 所示,其中脑梗塞可以分为ICAS、ECAS 和 NCAS 三种,但现在我们仅考虑性别和年龄与 ICAS 的关系,因此将分组数据 ICAS、ECAS 和 NCAS 转化为 1、
2、0 分类,是 ICAS赋值为 1,否赋值为 0。年龄为数值变量,可直接输入到 spss 中,而性别需要转化为(1、0)分类变量输入到 spss 当中,假设男性为 1,女性为 0,但在后续分析中系统会将 1,0 置换(下面还会介绍),因此为方便期间我们这里先将男女赋值置换,即男性为“0”,女性为“1”。图 1-1第二步:打开“二值 Logistic 回归分析”对话框:沿着主菜单的“分析(Analyze)回归(Regression)二元logistic(Binary Logistic)”的路径(图 1-2)打开二值 Logistic 回归分析选项框(图 1-3)。-_如图 1-3 左侧对话框中有许
3、多变量,但在单因素方差分析中与 ICAS显著相关的为性别、年龄、有无高血压,有无糖尿病等(P0.05 为不显著(无效假说成立,不具有统计学意义)。二、多项(多元、多分类、Multinomial)logistic 回归分析前面讲的二元 logistic 回归分析仅适合因变量 Y 只有两种取值(二分类)的情况,当 Y 具有两种以上的取值时,就要用多项 logistic回归(Mutinomial Logistic Regression)分析了。这种分析不仅可以用于医疗领域,也可以用于社会学、经济学、农业研究等多个领域。如不同阶段(初一、初二、初三)学生视力下降程度,不同龋齿情况(轻度、中度、重度)下
4、与刷牙、饮食、年龄的关系等。下面我们以图 1-2 中,对 apoba1(ApoB/AI)项中数值做四分位数后,将病人的 ApoB/AI 的比值划分为低、较低、中、高四个分位后利用多项 logistic 回归分析其与 ICAS 之间的相互关系。首先来做四分位数,很多人在做四分位数的时候都是自己算出来的,其实在 SPSS 里面给出了做四分位数的程度即分析(Aanlyze)描述统计(Descriptive Statistics)频率(Frequencies)。打如图2-1 开频率对话框。将我们要分析的数值变量 Apoba1 选入到变量对话框中。-_选择统计量,按照图 2-2 中勾选四分位数选项,其他
5、选项按照自己需要勾选,然后点击图 2-1 中的确定按钮,开始运算。在图 2-3 中可以读取我们的四分位数第 4/7 页值。图中百分数表示的是对该变量做的四分位数的百分比,25 表示前25%的,50 表示前 50%的,75 表示前 75%的。每一项对应的后面数值即为相应的四分位数,如 0.5904,即为前 25%的个体与后 75%个体的分位数。按照如上方法得出 ApoB/AI 的比率后我们可以把该比值划分为四个区间,即当 ApoB/AI 的比率1.0886 时为高。然后将这一划分如图 1-1 中“四分位数”一项用分类数值表示即 1 代表低,2 代表较低,3 代表中,4 代表高。这里还要强调的是我
6、们要研究其与 ICAS 之间的相互关系,那么我们需要将其设为二分类变量,即是 ICAS 的情况为 1,否则为 0,但多项 logistic 回归分析也会将 1,0 置换,所以我们需要在这里将我们需要研究的情况置换为 0,然后将其他置换为 1。下面就可以进行多项-_logistic 回归分析了。如图 2-4 打开多项 logistic 回归分析对话框(图 2-5)。如图 2-5 所示,在”因变量”中选入刚才我们输入的四分位数分类变量,在因子中输入分类变量 ICAS(这里一定是分类变量,可以是一个也可以是多个),在“协变量”中输入数值变量如年龄(这里一定是数值变量,可以是一个也可以是多个),但因本
7、次没有对年龄进行分析,仅对 ICAS 进行了单因素分析,所以我们把年龄移出协变量选项。在 SPSS 中对因变量的定义是,如果因变量 Y 有 J 个值(即 Y 有 J类),以其中一个类别作为参考类别,其他类别都同他相比较生成 J-1个冗余的 Logit 变换模型,而作为参考类别的其模型中所有系数均为0。在 SPSS 中可以对所选因变量的参考类别进行设置,如图 2-5 在因变量对话框下有一“参考类别”选项。点击后会弹出图 2-6 对话框。在该对话框中我们选中设定,输入数值 1,这代表我们以分类数值 1 所代表的类别作为参考类别,即最低数值作为参考类别。单击继续。当然也可以选择“第一类别”和“最后类
8、别”,入选中分别表示以最低数值或最高数值作为参考类别。其他设置与二元 Logistic 分析相似,将我们要输出的项勾选即可,点击图 2-5 中确定,输出数据。输出数据基本与二元 Logistic 分析相似,我们重点讲下最后一项“参考估计”,如图 2-7 所示,其中参考类别为 ICAS=1 的分类情况,而其中的 ICAS=0 分为 2、3、4 三种,分别给出了 ICAS=0 时的数值。-_而其中 Exp(B)(即 OR 值)表示某因素(自变量)内该类别是其相应参考类别具有某种倾向性的倍数。如 Exp(B)=2.235 时,即表示在较轻这一类别下 ICAS 患者数为其他类别(ECAS 和 NCAS)的 2.235 倍。这里面的显著水平即为 P 值。这里要强调的是,一些文献中在输出数据的时候经常会给出“Referent(参考)”项,这里的 Referent,即为我们这里所选的参考类别1,因为 1 作为参考类别,所以其所有数值为 0,即无数据输出。因此在文中需标注其为 Referent。