1、第十五章 多元线性回归分析,(Multiple Linear Regression),讲述内容第一节 多元线性回归第二节 自变量选择方法第三节 多元线性回归的应用 及其注意事项,人的体重与身高、胸围血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损半径与辐射的温度、与照射的时间,例 子,目的:作出以多个自变量估计应变量的多元线性回归方程。资料:应变量为定量指标,一定是随机的;自变量全部或大部分为定量指标,可以是随机变动的,也可以是人为选定的,若有少量定性或等级指标需作转换。用途:解释和
2、预报。更精确,第一节 多元线性回归,变量:应变量 1 个,自变量m 个,共 m+1 个。样本含量:n数据格式见表15-1回归模型一般形式:,一、多元线性回归模型,表15-1 多元回归分析数据格式,条件,两自变量与应变量的散点图,一般步骤,建立回归方程,(2)检验并评价回归方程及各自变量的作用大小,二、多元线性回归方程的建立,例15-1 27名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表15-2中,试建立血糖与其它几项指标关系的多元线性回归方程。,表15-2 27名糖尿病人的血糖及有关变量的测量结果,采用 最小二乘法建立多元线性回归方程,即寻找适宜的系数b0
3、,b1,b2,使得因变量观测值yi与其回归估计值 之间残差平方和最小。,求偏导数(一阶),原 理最小二乘法,统计软件包,最小,三、假设检验及其评价,1. 方差分析法:,(一)对回归方程,方差分析法可将回归方程中所有自变量X1,X2,Xm,作为一个整体来检验他们与应变量Y之间是否具有线性关系,并对回归方程的预测或解释能力做出综合评价。,表15-4 例15-1的方差分析表,表15-3 多元线性回归方差分析表,SPSS软件输出结果Analysis of Variance,2. 决定系数R 2:,3.复相关系数,可用来度量应变量 与多个自变量间的线性相关程度,亦即观察值 与估计值 之间的相关程度。,Y
4、,Y,计算公式:,,本例,若,m,=1,自变量,则有,,,r,为简单相关系数。,(二)对各自变量的假设检验与评价 指明方程中的每一个自变量对Y的影响,1. 偏回归平方和,在其它自变量存在于回归方程中的条件下,考察某一自变量Xj对应变量Y的回归效应,表15-5 对例15-1数据作回归分析的部分中间结果,各自变量的偏回归平方和可以通过拟合包含不同自变量的回归方程计算得到,表15-5给出了例15-1数据分析的部分中间结果。,结果,2. t 检验法 是一种与偏回归平方和检验完全等价的一种方法。计算公式为,结 果,结 论,对于同一资料,不同自变量的t值间可以相互比较,t的绝对值越大,说明该自变量对Y的回
5、归所起的作用越大。,3标准化回归系数 自变量取值的单位及其离散程度是不同的,因此量纲不同的各回归系数之间不能直接比较大小,可对变量进行标准化变换,然后拟合回归方程,这样获得的回归系数称为标准化回归系数。(可说明各自变量相对贡献大小)。 变量标准化是将原始数据减去相应变量的均数,然后再除以该变量的标准差。,计算得到的回归方程称作标准化回归方程,相应的回归系数即为标准化回归系数。,注意: 一般回归系数有单位,用来解释各自变量对应变量的影响,表示在其它自变量保持不变时, 增加或减少一个单位时Y的平均变化量 。不能用各 来比较各 对 的影响大小。 标准化回归系数无单位,用来比较各自变量对应变量的影响大
6、小, 越大, 对 的 影响越大。,结论,第四节自变量筛选,目的:使得预报和(或)解释效果好,多元线性回归方程中所包含的自变量是根据专业知识和经验事先选择好的,但在许多回归分析的、应用中,由于没有清晰的理论依据,回归模型所包含的自变量难以预先确定,如果将一些不重要的自变量也引入方程,会降低模型的精度,因此选择有意义的自变量是回归分析的第一步。 选择自变量的基本思路是:尽可能将回归效果显著的自变量选入回归方程中,将作用不显著的特别是与自变量有密切线性关系的自变量排除在外。,一、全局择优法,目的:根据一些准则建立 “最优”回归模型意义:对自变量各种不同的组合所建立 的回归方程进行比较 , 择优选择方
7、法:,决定系数R2的缺点: 当回归方程中包含有很多自变量,即使其中有一些自变量对解释应变量变异的贡献极小,随着回归方程的自变量的增加,R2 值表现为只增不减。,例15-2 用全局择优法对例15-1数据的自变量进行选择。,全局择优法的局限性,如果自变量个数为4,则所有的回归模型有241 15个;当自变量数个数为10时,所有可能的回归为 2101 1023个;当自变量数个数为50时,所有可能的回归为25011015个。,二、逐步选择法,1.,1.前进法,回归方程中的自变量从无到有、从少到多逐个引入回归方程。此法已基本淘汰。 2.后退法,先将全部自变量选入方程,然后逐步剔除无统计学意义的自变量。 剔
8、除自变量的方法是在方程中选一个偏回归平方和最小的变量,作F检验决定它是否剔除,若无统计学意义则将其剔除,然后对剩余的自变量建立新的回归方程。重复这一过程,直至方程中所有的自变量都不能剔除为止。理论上最好,建议使用采用此法。 3.逐步回归法,逐步回归法是在前述两种方法的基础上,进行双向筛选的一种方法。该方法本质上是前进法。,1.从不包含任何自变量的模型开始(截距)2.添加具有最大统计学意义的变量进入模型,如p值最小,小于预先给定的进入标准的变量。3.重复第二步,直到没有p值小于预先给定的进入标准的变量。,1.从整个模型开始(包含研究所涉及所有自变量及其交互项2.剔除对参数进行t检验或方差分析的结
9、果中最无统计学意义的变量。如p值最大,大于预先给定的剔除标准的变量。3.重复第二步,直到没有p值大于预先给定的剔除标准的变量。,1.从不包含任何自变量的模型开始。2.添加具有最大统计学意义的变量进入模型。3.剔除对参数进行t检验或方差分析的结果中最无统计学意义的变量。3.重复第二步和第三步,直到模型外没有可进入的变量或模型内没有可剔除的变量为止。,表15-7 逐步回归过程,表15-8 例15-3方差分析表,“最优”回归方程为,结果表明:血糖的变化与甘油三脂、胰岛素和糖化血红蛋白有线性回归关系,其中与胰岛素负相关。由标准化回归系数看出,糖化血红蛋白对空腹血糖的影响最大。,表15-9 例15-3的
10、回归系数的估计及检验结果,第四节 多元线性回归的应用 及其注意事项,一、多元线性回归的应用,影响因素分析,控制混杂因素预测:由自变量值推出应变量Y的值控制:指定应变量Y的值查看自变量的改变量,二、应用条件,三、应用的注意事项,(一)变量的数量化 (二)样本含量 (三)统计“最优”与专业的“最优” (四)多重共线性 (五)交互作用 (六)残差图,1. 影响因素分析,例如影响高血压的因素可能有年龄、饮食习惯、吸烟状况、工作紧张度和家族史等,在影响高血压的众多可疑因素中,需要研究哪些因素有影响,哪些因素影响较大。,在临床试验中,则可能由于种种原因难以保证各组的指标基线相同,如在年龄、病情等指标不一致
11、出现混杂的情况下,如何对不同的治疗方法进行比较等。 这些问题都可以利用回归分析来处理。控制混杂因素(confounding factor)的一个简单办法就是将其引入回归方程中,与其他主要变量一起进行分析,2. 估计与预测,如由儿童的心脏横径、心脏纵径和心脏宽径估计心脏的表面积;由胎儿的孕龄、头颈、胸径和腹径预测出生儿体重等。,3. 统计控制 逆估计。,例如采用射频治疗仪治疗脑肿瘤,脑皮质的毁损半径与射频温度及照射时间有线性回归关系,建立回归方程后可以按预先给定的脑皮质毁损半径,确定最佳控制射频温度和照射时间。,二、多元线性回归应用的注意事项,1指标的数量化,分2类,可用一个(0,1)变量。如性
12、别,分k类,k-1个(0,1)变量,如血型。,数据格式回归方程,建立回归方程,b1 :相当A 型相对于O 型的差别b2 :相当B 型相对于O 型的差别b3 :相当AB 型相对于O 型的差别,(3)等级 定量。 一般是将等级从弱到强转换为 (或 )如文化程度分为小学、中学、大学、大学以上四个等级。Y为经济收入。,解释:b(b1)反映X(X1) 增加1个单位, 增加b个单位(如:500元)。 表示中学文化较小学收入多500, 大学较中学多500,余类推。,2样本含量: n =(510)m。 3关于逐步回归: 对逐步回归得到的结果不要盲目的信任,所谓的“最优”回归方程并不一定是最好的,没有选入方程的
13、变量也未必没有统计学意义。例如,例15-3中若将选入标准和剔除标准定为 和 选入的变量是 , 而不是 , 结果发生了改变。不同回归方程适应于不同用途,依专业知识定。,统计“最优”与专业的“最优”,不同准则、方法得出的“最优”方程不同不同的引入、剔除标准获得的“最优”方程不同;方程还受数据的正确性、共线性影响研究者应结合问题本身和专业知识及经验来决定,多重共线性,自变量间存在着相关关系,使一个或几个自变量可以由另外的自变量线性表示时,称为该变量与另外的自变量间存在有共线性(collinearity)。,X1,X2,Y,4. 多重共线性 即指一些自变量之间存在较强的线性关系。如高血压与年龄、吸烟年
14、限、饮白酒年限等,这些自变量通常是高度相关的,有可能使通过最小二乘法建立回归方程失效,引起下列一些不良后果:(1)参数估计值的标准误变得很大,从而t值变得很小。(2)回归方程不稳定,增加或减少某几个观察值,估计值可能会发生很大的变化。(3)t检验不准确,误将应保留在模型中的重要变量舍弃。(4)估计值的正负符号与客观实际不一致。,消除多重共线性:剔除某个造成共线性的自变量,重建回归方程;合并自变量;采用逐步回归方法。,多重共线性的识别与解决办法,筛选自变量用主成分回归岭回归,回归系数的符号与专业知识不符变量的重要性与专业不符R2高,但各自变量对应的回归系数均不显著。方差膨胀因子(Variance
15、 Inflation Factors ,VIF) 10,交互作用,当某一自变量对应变量的作用大小与另一个自变量的取值有关时,则表示两个变量有交互作用(interaction)。 检验两变量间有无交互作用,普遍的做法是在方程中加入它们的乘积项再做检验。如考察X1、X2间的交互作用,可在模型中加入X1X2项。,(六)、残差图(residual plot),Spss 应用,从菜单选择 Regression LinearMethod中的选项: Enter 所选自变量强行全部选入方程 Stepwise 逐步回归法重要的结果R、R Square、 Adjust R Square反映模型对应变量变异的解释程
16、度。Adjust R Square尤其用于自变量个数不等的模型之间的比较。,ANOVA方差分析表中的Sig.反映模型是否有统计学意义Coefficients表中B为各自变量系数(回归系数)。Beta为标准化回归系数,其绝对值用于说明自变量的重要性。t、Sig.检验各系数是否有统计学意义。逐步回归的重要选项Method要选为StepwiseOptions中要设定合适的选入选出标准(注:Removal中设定的p值必须大于Entry中的设定。),参考书目1.孙振球主编 . 医学统计学 . 第 2 版 . 北京:人民卫生出版社, 2005 2. 方积乾主编 , 孙振球副主编 . 卫生统计学 . 第 5 版 . 北京:人民卫生出版社, 2003 3. 徐勇勇主编 , 孙振球副主编 . 医学统计学 . 第 2 版 . 北京:高等教育出版社, 2004 4. 方积乾主编 . 医学统计学与电脑实验 . 第 2 版 . 上海:上海科学技术出版社, 2001 5. 赵耐青主编 . 医学统计学 . 高等教育出版社, 2004,