1、第十一章 多元相关与回归分析第一节 多元线性回归模型多元线性回归即多个自变量对一个因变量的线性回归。一、多元线性回归模型概念以两个自变量的二元回归为例,如 X1、X 2和 Y 的关系存在关系式:E(Y) =+ 1X1+ 2X2,则 Y 与 X1和 X2之间存在多元线性相关关系,这一方程即多元线性回归模型。多元线性回归是多维空间中的超平面,如二元回归是三维空间中的一个平面。对于任意的 (X1, X2),Y 的期望值就是该平面上正对(X 1, X2)的那个点的 Y轴值,其与实际观测点之间存在随机误差,实际观测点 Yi=+ 1X1+ 2 X2+ i。二、模型的建立总体未知情况下,以样本构造出一个平面
2、来估计总体真实平面,即以平面= a+b1x1+ b2x2去拟合原始观测数据。拟合的准则是最小二乘法原理,使各观测值距离拟合值的偏差平方和最小,即(yi-) 2最小。由此计算出的 a,b1, b2是对 , 1, 2的最佳估计。例如对施肥量 X1、降雨量 X2和产量 Y 的数据,SPSS 输出结果(表 1):Variable B SE.B Beta TX1 3.81 0.583 0.59 6.532X2 3.33 0.617 0.49 5.4Constant 266.7 32.077 8.313即得到 = 266.7+3.81x1+3.33x2三、回归系数的意义对于模型 = a+b1x1+ b2x
3、2,b 1可以解释为:当 X2不变的情况下,X 1每变化一个单位,Y 将平均发生 b1个单位的变化。如果所有自变量都同时变化,那么 Y= b 1X 1+ b2X 2+. biX i。例题:如果对产量、施肥量、降雨量做出了简单回归和多元回归模型:A 模型:产量=287+5.9 施肥量;B 模型:产量=400+6.0 降雨量;C 模型:产量=267+3.81 施肥量+3.33 降雨量;请计算:(1)如果在每亩土地上多施 10 斤肥料,可以期望产量增加多少?(2)如果在每亩土地上多灌溉 5 厘米的水,可以期望产量增加多少?(3)如果同时在每亩土地上多施 10 斤肥料,并且多灌溉 5 厘米的水,可以期
4、望产量增加多少?(4)由原始数据发现较高的施肥量和较高的降雨量是有联系的,如果照这样的趋势下去,那么在每亩土地上多灌溉 5 厘米的水,可以期望产量增加多少?解:(1)Y=3.81(10)=38.1 斤。(2)Y=3.33(5)=16.65 斤。(3)Y=3.81(10)+ 3.33(5)= 38. 1+16.65=54.75 斤(4)Y=6.0(5)=30 斤。采用 B 模型中的简单回归系数 6.0,它表示当施肥量也变化时,产量怎样随着降雨量的变化而变化。比较题 2 和题 4,30 斤的增产不只归功于降雨量,也包含施肥量的影响;而 16.65 斤的增产则是在施肥量不变的情况下,伴随着降雨量的增
5、加而产生的。四、自变量为定类变量时回归系数的解释线形回归要求自变量和因变量都是定距变量,但当自变量为二项变量或定类变量时,可以将其转化为 0-1 变量/虚拟变量后再进行回归。1、自变量为二项变量时:如研究存款额 Y(百元)和年龄 X1、性别 X2之间的关系,令男性=1,女性=0(对照组) 。如果得到如下多元回归方程:= 33+12x1-9.1x2,则 x2的回归系数-9.1 表示,对于同年龄的人来说,男性的存款额比女性平均减少 910 元。2、自变量为定类变量时:如研究收入 Y(百元)和文化程度 X 之间的关系,假设文化程度包括小学、中学、大学,可将文化程度转化为两个虚拟变量,D1= D2=
6、,D 1=D2=0 代表小学程度(对照组) ,D1=1, D2=0 表示中学文化程度;D 1=0,D 2=1 表示大学文化程度。假如得到回归方程 = 33+12D1+30D2,D 1的回归系数表示中学文化程度的人比小学文化程度的人收入平均多 1200 元;D 2的回归系数表示大学文化程度的人比小学文化程度的人收入平均多 3000 元。3、如果自变量为连续变量,但其与因变量的关系并不是线形关系,例如年龄 X 和身高 Y 的关系,可以把年龄划分成年龄段做为定类变量。对于有个水平的定类变量,需要设计 n-1 个虚拟变量来描述。第二节 多元线性回归模型检验一、回归系数的估计和检验在多元回归中,各个回归
7、系数的估计值 b1,b2都围绕总体回归系数 1, 2近似正态波动,所以可以用样本回归系数的标准误差来构造总体回归系数的置信区间。标准误差为表 1 中的第二列输出结果 SE.B。总体回归系数置信区间公式: i= bit/2 SEi,其中,i=1,2,.k;查 t 分布表时的自由度为 n-k-1。例题:以表 1 为例,计算每个回归系数的 95%的置信区间(k=1,2) ,已知 n=7:解:df=7-2-1=4;查表得 t0.025=2.776;1, 中学0,其他1,大学0,其他 1= 3.812.776(0.583)=3.811.618; 2= 3.332.776(0.617)=3.331.713
8、对回归系数进行检验即检验 H0: i=0;H 1: i0,即检验自变量和因变量之间是否存在线形相关关系。检验方法:计算检验统计量为 t= bi-0/ SEi,计算出相应概值。SPSS 可以输出 t 值和概值 P。二、回归模型的检验即检验 H0: 1= 2= i= 0。对多元回归做方差分析及显著性检验:将总偏差平方和 分解为2()yii)2(不能由回归解释的偏差)和 i- )2(可以由对 X1,X2Xk的回(y(y归解释的偏差) 。计算 F 值=可以由回归解释的方差/不能解释的方差,然后对 F值与临界值进行比较,也可计算 F 值的概值。表 2:对改革时间 Y 与公司规模 X1和公司类型 X2的二
9、元回归作出方差分析表,包括求出概值和进行 95%置信水平下的检验。SS df MS F 概值回归误差 1504.41 2 752.20 72.47 0.001残差 176.39 17 10.38总误差 1680.80 19在 95%的置信水平下可以拒绝原假设,说明回归效果是显著的,即回归模型有意义。第三节 相关系数和决定系数一、复相关系数和决定系数决定系数 R22=可以由回归解释的偏差/总偏差=( i- )2/ ;R 2的y()iy平方根 R 为复相关系数,取值范围 0-1。R 2=1 时,说明 Y 的全部偏差都可以用回归方程解释,以二元回归为例,表明全部观测点正好落在拟合的回归平面上。R2越
10、大,能用回归来解释的部分就越大,表示 Y 和 X1,X2, Xi的线形关系越强,回归效果越好,R 2也具有消减误差比例的意义。例如根据表 2 计算出:R 2=1504.41/1680.80=0.8950559;R=0.9460739解释:应用二元回归可以解释总偏差中的 89.5%,以改革时间对公司规模和公司类型作二元回归,效果是很好的。二、偏相关系数和偏决定系数决定系数反映了一组自变量对回归模型的贡献。如果想知道某一个自变量的贡献,需计算引进这个变量后,所减少的残差的相对比例。以二元回归为例,设 =a+b1x1+b2x2,用 RSS(X1,X2)表示残差;如果只对自变量 X2做简单回归模型 =
11、a+b2x2,用 RSS(X2) 表示残差。则 RSS(X2)肯定大于RSS(X1,X2),在已有 X2的模型中再引入 X1变量后,所减少的残差为 RSS(X2)- RSS(X1,X2)。减少的相对残差 R2Y1.2=(RSS(X 2)- RSS(X1,X2) )/ RSS(X2)就是偏决定系数,表示 X2已在模型当中时,再引入变量 X1后,能够减少百分之多少的残差。偏决定系数的平方根为偏相关系数,其符号与拟合回归函数中相应的回归系数符号一致。偏相关系数可以看作是消除了 X2的影响效应后,对 Y 和 X1之间的关联程度的度量,也称净相关。三、标准化回归系数将所有变量 Y,X1,X2Xi标准化,
12、然后对标准化后的 Y*,X i*进行回归拟合得:Y*= a*+b 1* X1*+.+ bi* Xi*b1*,b 2*bi *就是标准回归系数,其大小说明了各自对应的自变量对 Y 的影响大小,标准回归系数绝对值越大,该自变量的影响就越大。例如表 1 第四列的标准回归系数 Beta,施肥量(0.59)对产量的影响比降雨量(0.49)更大。但注意:这种方法只有当自变量之间的相关性较小时才正确。第四节 非线性相关与回归分析对于变量之间会的非线性的关系,可将其变换为线性关系再处理。一、幂函数幂函数基本形式为:Y i= 1Xi2 eui,ui 为随机误差项,和 1为 2参数。参数 2度量了变量 Y 对变量
13、 X 的弹性,即 X 的单位百分比变动引起 Y 变动的百分比, 2= = 。/由于 Y 和 X 之间是非线性关系,为了将其变为线形形式,可以对方程两边取对数,转换为双对数函数形式,即 InYi =In 1+ 2InXi+ui,把 InYi和 InXi视为新的变量,则新变量之间成为线形关系,可以按照线形回归的方式估计参数。也可拓展到多元的情况,如 InYi =In 1+ 2InX1i+ 3InX2i+ui。例如:根据天津市 1980-1996 年的经济统计资料,想研究天津市国内生产总值GDP 和资金投入量及从业人员数量之间的关系,可运用柯柏道格拉斯生产函数建立理论回归方程:Y i=AKi Li
14、eui,Y 是 GDP,K 是资金投入量,L 是从业人数,u i是随机误差项。为了便于估计参数,将该方程转换为线性方程:InYi=InA+InK i+InL i+ui,设 Yi*= InYi,K i*= InKi,L i*= InLi, 1=InA, 2=, 3=,则上式变为 Yi*= 1+ 2 Ki*+ 3Li*+ui,用线形回归分析得出结果:i*=-10.4639+1.021124 Ki+1.471943 Li*因为 1=InA=-10.4639,所以 A=0.0000285,这样所估计的生产函数为:i*=0.0000285Ki1.021124Li1.471943二、对数函数对数函数关系包
15、括自变量为对数和因变量为对数两种情况。自变量为对数时,方程为 Yi=+InX i+ui,参数 表示自变量 X 每变动一个百分点时,会引起因变量 Y 绝对值的变动量。若把 InXi视为新变量,可以作为线形回归去处理。当因变量为对数时,方程为 InYi=+X i+ui,参数 表示自变量 X 每变动一个单位时,会引起因变量 Y 发生几个百分比的变动。如把 InYi视为新变量,可以作为线形回归去处理。例如:美国联邦储备管理委员会要研究 GDP 和货币供应量 X 的关系,建立对数方程 Yi= 1+ 2InXi+ui,可先将货币供应量数据 Xi转变为 InXi,再按照线性回归方法作 GDP 对 InXi的
16、回归,得到 i=-16329+2584.79 InXi,表明货币供应量每增加一个百分点,GDP 的绝对量将增加 2584.79 亿美元。三、指数函数指数函数的形式为 Yi=abXieui。指数函数通常用于描述产量、成本等现象的变动趋势。对方程两边取对数可转化为线性函数:InY i=Ina+XiInb+ui,这时的变量为 InYi和 Xi,参数为 Ina 和 Inb。可以设 Yi*= InYi, 1=Ina, 2=Inb,得到 Yi*= 1+ 2Xi+ui。对于非线性关系,用相关指数度量其相关程度,相关指数就是非线性回归的决定系数 R2或者决定系数的平方根 R。R 2和 R 越大,表明变量间的非
17、线性相关程度越高,反之越低。R 取值范围 0-1。四、logistic 回归(因变量为二项变量时的回归)当因变量为二项变量时,可将其转化为定距变量。其他定类变量也可以转化为二项变量来研究。用虚拟变量的形式来表示因变量 Y,即 Y= ,并设成功的概率P(Y=1)=,失败的概率 P(Y=0)=1-,根据二项分布特征,可知 Y 的期望值E(Y) =,Y 的方差 D(Y)=(1-)。设 Y(二项变量)对自变量的回归模型为:E(Y) =+ 1X1+ iXi如果拟合的方程为:= a+b 1x1+ bixi那么,拟合值 就表示成功概率 即 E(Y)的估计值。所以自变量对 Y 的影响就转化为了自变量对成功概率
18、的影响。然而,对于二项变量来说,其 E(Y)的取值范围只能是 0-1,这样就不能很好适应线形回归模型(线形回归要求因变量连续取值) ,所以考虑对 E(Y)进行数值变换,可以将其转化为 P*=ln( ), P 即 11, 成功0,失败ln( )=Logit(P)=+ 1X1+ iXi就是 logistic 回归模型。当 P 趋1P于 0 时,Logit(P)趋于-,当 P 趋于 1 时,Logit(P)趋于+。通过这样的变换,使得因变量原本在(0,1)的取值范围变成了(-,+)。logistic 回归最常用于流行病学研究,用来探讨某种疾病的危险因素,或者根据危险因素来预测患病概率。根据模型得 P
19、=e(+1X1+iXi) /1+e (+1X1+iXi) ,可预测发生概率。对于 logistic 回归,用 Odds Ratio 发生比来解释回归系数,OR:发生概率与不发生概率的比值。OR=e ;lnOR=。 表示自变量每增加一个单位,其相对危险度为 e 。例如:研究吸烟年数 X 与是否患肺癌 Y 的关系,若根据 = 1 计算出OR=2.72,则表明吸烟年数每增加一年,患肺癌的危险性是之前的 2.72 倍。如果研究是否吸烟与肺癌的关系,令 X=1 吸烟,X=0 不吸烟;Y=1 患肺癌,Y=0 不患肺癌,若求得 OR=2.72,则表明吸烟的人患肺癌症的危险性是不吸烟的2.72 倍。如果令 X
20、=1 不吸烟,X=0 吸烟;Y=1 患肺癌 Y=0,不患肺癌,若求得OR=0.3637,则表明不吸烟的人患肺癌症的危险性是吸烟的 36.37%,或不吸烟的人患肺癌的危险性比吸烟者降低了 63.63%。注意区分 X 变量的赋值。第五节 自变量的选择SPSS 提供的 5 种选择变量的方法:1、向前加入变量法(FORWARD) 。将自变量逐个引入方程,每次增加一个。第一步是从所有 K 个自变量中引入一个,使它与 Y 组成的一元方程比其他更好(即可用回归解释的偏差比例更大) ;第二步是从未引入的 K-1 个自变量中再选一个,使它和已进入的自变量与 Y 组成的二元回归方程比其他更好,以此类推,每一步都要
21、对引入的变量做显著性检验,直至最新引入的变量不再显著为止。2、自后淘汰变量法(BACKWARD) 。先将全部 K 各自变量引入回归方程,然后对每个自变量做显著性检验,剔除不显著变量中最不重要的;接着用剩下的自变量与 Y 重新拟合回归方程,再剔除不重要的变量,以此类推,直至方程中所有变量都显著为止。3、逐步回归法(STEPWISE) 。前两种方法的结合,先按自变量重要性程度从一个自变量开始逐步引入方程,类似向前加入变量法;每引进一个新变量时,要重新对方程中的全部自变量再做显著性检验,剔除其中不显著的,直至既无显著变量从方程中剔除,有无显著变量引入方程为止。4、强迫进入变量法(ENTER) 。按照
22、研究目的和已有的知识经验选择自变量,强迫这些自变量与 Y 建立回归方程。5、强迫变量退出法(REMOVE) 。与前法相反,强迫某个或某些变量退出方程。第二、三、四种更为常用一些。引入和剔除变量的标准:自变量对 Y 的作用的显著程度。当引入或剔除一个自变量时,对回归的方差分析中“可用回归解释的偏差”将会增大或减小,这个变化量称作偏回归平方和,其与残差的 F 比值就反映了该自变量的重要性程度。对这个比值进行 F 检验就是对该自变量的显著性检验,将 Fin(进入方程所需的最小 F 值)和 Fout(剔除变量时不能超过的最大 F 值)作为引入和剔除变量的标准,这个标准可自行设定,如果没有规定,程序会自动采取默认值Fin=0.05,F out=0.10。