1、第四章 多元线性回归模型,经典多元回归模型回归分析的机理经典回归模型及其参数估计残差分析与假设检验含有虚拟变量的回归线性回归过程,一、回归分析的机理,任意抽出一个妇女,试猜测其体重如何猜?准确性如何?猜平均体重,最大偏差:26如何猜得更准确?影响体重的最直接因素是身高:一般身高高的人体重大。平均身高:62.85inch, 标准差:3.3以平均身高分界:最大偏差20E(weight/height)=b0+b1height,,例:20个妇女的体重资料如表, 平均体重:123.6pound,标准差:15.5 最低体重:93pound, 最大体重:155,一个身高60的妇女体重平均111.5,最大偏差
2、12,猜体重平均值,最大偏差:26,身高相同的人体重不一定相同,平均来看,体重随身高的增加而增加,以平均身高分界,高于平均身高猜134,低于平均身高猜113.2:最大偏差20,能不能猜得更准?,这条直线的含义是什么?,一个身高60的妇女体重平均111.5,最大偏差12,观测值weighti,总体回归线,通常,身高高的人体重大。同样身高的人体重不同,即在给定身高下,体重有一个分布。大样本下为正态分布。,总体回归线反映了给定身高下,体重的平均水平: E(weight/height)=b0+b1height ,b0,b1是未知的参数,已知20个妇女的身高体重资料以此为样本估计总体参数,样本回归线,为
3、什么要有,回归分析的任务:从样本回归线估计总体回归线,总体回归函数说明在给定的身高下,体重平均水平。但对某一个妇女,其体重可能与该平均水平有偏差。被解释变量观察值围绕其期望值的离差,是一个不可观测的随机变量,称为随机误差项。,weight,height,为什么要设随机误差项?,在解释变量中被忽略的因素的影响;变量观测值的观测误差的影响;模型关系的设定误差的影响;其它随机因素的影响。产生并设计随机误差项的主要原因:理论的模糊性;数据的欠缺;节省原则;,weight,height,样本回归函数,从被研究总体中随机抽取n个样本(本例n=20),利用样本观测数据可得到样本回归函数:样本回归函数是对总体
4、回归函数的一个估计对某一个妇女,其体重观测值不会恰好等于估计值,而是会有残差残差是对随机误差项的一个估计,回归分析的主要目的:根据样本回归函数SRF,估计总体回归函数PRF。,一、回归分析的机理,任意抽出一个妇女,试猜测其体重影响体重的最直接因素是身高:利用身高与体重的关系推测如何猜得更准确(提高回归线的解释程度R2)?除了身高,还有哪些因素影响体重?,例:20个妇女的体重资料,二、经典回归模型及其参数估计,多元回归模型及其经典假设多元回归模型的参数估计偏回归系数的含义,1.多元回归模型及其经典假设,找到导致被解释变量变化的主要因素作为解释变量,构建多元回归模型:设因变量Y是k个解释变量X1,
5、 Xk和误差项的线性函数: 其中:0为常数项,1 , k为偏回归系数,i为随机误差项对容量为n的样本,这一模型实际上包含n个方程: y1=0+1x11+kxk1+1 yn=0+1x1n+kxkn+n,总体回归模型,多元回归模型的矩阵表示,注意:解释变量个数为k,参数个数为k+1,样本回归函数(SRF),ei称为残差或剩余项(residuals),可看成是总体回归函数中随机扰动项i的近似替代。 样本回归函数的矩阵表达:,多元回归模型的经典假设,假设1: x1,x3, xk是非随机的。假设2:E(i)=0 i=1,2, n假设3:同方差Var(i)=2 (E(ii)= 2 )假设4:无序列相关,
6、cov (ij)=E(ij)=0假设5:x诸变量间无准确的线性关系,即:无多重共线性。不存在一组不全为零的数1、2、 k,使得: 1x1i+ 2x2i+ + kxki=0假设6:i N(0, 2),关于多重共线性的进一步说明,如果存在一组不全为零的数1、2、 k,使得: 1x1i+ 2x2i+ + kxki=0 不妨设10,则上式可变为: x1i=-(2x2i+ + kxki)/1称解释变量之间存在完全共线性,此时,某个解释变量可以写为其它解释变量的线性组合。如果 ,会不会破坏无多重共线假定?,不会,因为这两个变量的关系是非线性的!,经典假设的矩阵表示,假设2:,假设3和4:,假设5:矩阵x的
7、秩等于回归参数的个数(或解释变量个数加1),R(x)=k+1 , nk,2.回归参数的普通最小二乘估计:残差平方和最小,已知,假定,正规方程组,正规方程组的矩阵形式,条件?,点估计,OLS估计的矩阵表示,正规方程组的另一种表达,该正规方程组成立的条件是什么?,可以证明,随机误差项的方差的无偏估计量为:,随机误差项的方差的无偏估计,例:二元回归模型的参数估计,1的置信区间:,OLS参数估计量的性质,在满足基本假设的情况下,其结构参数的普通最小二乘估计具有: 线性性、无偏性、有效性。,同时,随着样本容量增加,参数估计量具有: 渐近无偏性、渐近有效性、一致性。,样本容量问题,所谓“最小样本容量”,即
8、从最小二乘原理出发,欲得到参数估计量,不管其质量如何,所要求的样本容量的下限。,1) 最小样本容量,样本最小容量必须不少于模型中解释变量的数目(包括常数项),即 n k+1因为,无多重共线性要求:秩(X)=k+1,2)、满足基本要求的样本容量,从统计检验的角度: n30 时,Z检验才能应用; n-k8时, t分布较为稳定,一般经验认为: 当n30或者至少n3(k+1)时,才能说满足模型估计的基本要求。,模型的良好性质只有在大样本下才能得到理论上的证明,3. 偏回归系数的含义,二元回归模型为:yi=1+2x2i+3x3i+i,偏回归系数告诉我们什么,偏回归系数表示了其他因素不变时,相应解释变量对
9、因变量的“净影响”。,1) 偏相关系数,简单相关:两个变量之间线性关联的紧密程度偏相关定义:在多个变量y,x1,x2,xk之间,如果只考虑两个变量之间的真实相关关系,而排除其他变量对它们的影响(或者说其他变量保持不变),这种相关成为偏相关。,例 控制第三变量,某地15名13岁男童身高x1(cm)、体重x2(kg)、和肺活量y(ml)的数据如表。试对该资料做控制体重影响的身高与肺活量的偏相关分析。步骤: AnalyzeCorelatePartial选“身高”和“肺活量”为分析变量,“体重”为控制变量,“双尾检验”,“显示实际显著性水平”选项:同时输出均值和标准差及零阶相关系数,偏相关系数,在偏相
10、关中,根据被固定的变量数目的多少,可分为零阶偏相关(即简单相关)、一阶偏相关、二阶偏相关、(k-1)阶偏相关等。偏相关系数:用来衡量偏相关程度的数量指标。例: 为x3保持不变下y和x2的一阶偏相关系数,简单相关系数vs偏相关系数,r123与r12的关系r12=0时, r123并不为0,除非r13或r23为0。r123与r12不一定同号。,如果x1与x2的偏相关系数为0,意味着在消除了x3对每个变量的线性影响后, x1与x2之间没有线性关联,这时我们可以下结论说:在模型中x2对x1没有直接影响。,例1 “期望扩充”菲利普斯曲线,菲利普斯曲线表明:通货膨胀率和失业率是反向变化的。期望扩充菲利普斯曲
11、线增加了预期通货膨胀率的影响。1970-1982年美国真实通货膨胀率y(%)、失业率x2(%)和预期通货膨胀率x3(%)数据如表,作菲利普斯曲线。原始菲利普斯曲线:yt=b1+b12x2t+1t期望扩充菲利普斯曲线:yt=1+2x2t+3x3t+t,2) 偏回归系数,估计值为正,失业率与通胀率同方向?,符号正确,统计显著。,统计上不显著异于0,例1 “期望扩充”菲利普斯曲线,估计结果原始菲利普斯曲线,期望扩充菲利普斯曲线,?,yt=b1+b12x2t+1t,yt=1+2x2t+3x3t+t,b12=0.244934,2=-1.392472,x3t=b2+b32x2t+2t x3t =-0.72
12、5280+1.113857x2t,通胀y,失业率x2,预期通胀x3,20,B320,偏回归系数,偏回归系数表示了其他因素不变时,相应解释变量对因变量的“净影响”。2反映了x3不变的条件下,x2对y的净影响偏回归系数-偏相关:控制第三变量多元回归与一元回归的区别:为什么要作多元回归,yt=1+2x2t+3x3t+t,选择恰当的变量至关重要,三、残差分析与假设检验,假设检验必要性及检验内容统计检验及经济意义检验经典假设的检验模型的修正,1.假设检验的必要性和检验内容,回归建模过程,1.假设检验的必要性和检验内容,假设检验:对模型和所估计的参数加以评定,判定在统计上是否显著,在理论上是否有意义为什么
13、需要检验?回归分析是要通过样本来估计总体的真实参数,或者说是用样本回归线估计总体回归线模型可能违反OLS估计的基本假定结论只是一次抽样的某种偶然结果,假设检验的内容1:经典假设检验,检验经典线性回归模型的假定是否成立:保证参数估计量的良好性质按照线性模型的假定,模型随机误差项应相互独立,且服从均值为0,等方差的正态分布。如果假定不成立,OLS估计量不再有效,回归分析的统计检验结果再显著也不能说明问题。因为残差平方和中既有观测误差,又有模型误差,F检验的p值再小,也不意味模型正确。内容:是否存在共线性、序列相关、异方差,是否正态分布,假设检验的内容2:统计检验,统计检验尽管从统计性质上已知,对无
14、偏估计量,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。主要包括方程显著性检验、变量的显著性检验、拟合优度检验及参数的区间估计。,假设检验的内容3:经济意义检验,经济意义检验检验各个参数是否与经济理论和实际经验相符消费函数例: =232.8+0.771X ,011?例如:ln(人均食品需求量)=2.00.5ln(人均收入)4.5ln(食品价格) +0.8ln(其它商品价格) ln(人均食品需求量)=2.0+0.5ln(人均收入)4.5l
15、n(食品价格)+0.8ln(其它商品价格) ln(人均食品需求量)=2.0+0.5ln(人均收入)0.8ln(食品价格) +0.8ln(其它商品价格),2. 统计检验及经济意义检验前提条件:经典假设满足,拟合优度检验方程显著性检验变量显著性检验经济意义检验,(1)拟合优度检验,判定系数和调整的判定系数,总离差平方和的分解,证明:该项等于0,该统计量越接近于1,模型的拟合优度越高。,从R2的表达式中发现,如果在模型中增加解释变量, R2往往增大。,这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。,但是,由增加解释变量引起的R2的增大与拟合好坏无关,所以R2需调整。,判定系数(可决系数
16、),调整的可决系数(adjusted coefficient of determination),其中:n-k-1为残差平方和的自由度,n-1为总体平方和的自由度。,(2)方程显著性的F检验,方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。 在多元模型中,即检验模型中的参数j是否显著不为0。,F检验的思想来自于总离差平方和的分解式 TSS=ESS+RSS,如果这个比值较大,则X的联合体对Y的解释程度高,可认为总体存在线性关系,反之总体上可能不存在线性关系。 因此,可通过该比值的大小对总体线性关系进行推断。,在原假设H0成立的条件下,统计量,给定显著
17、性水平,可得到临界值F(k,n-k-1),由样本求出统计量F的数值,通过 F F(k,n-k-1) 或 FF(k,n-k-1)来拒绝或接受原假设H0,以判定原方程总体上的线性关系是否显著成立。,关于拟合优度检验与方程显著性检验关系的讨论,从上式可看出,F与R2是同向变化的:当R2 =0时,F=0R2越大,F值也越大。当R2=1时,F,对于一般的实际问题,在5%的显著性水平下,F统计量的临界值所对应的R2的水平是较低的。所以,不宜过分注重R2值,应注重模型的经济意义;在进行总体显著性检验时,显著性水平应该控制在5%以内。,(3)变量的显著性检验(t检验),方程的总体线性关系显著不等于每个解释变量
18、对被解释变量的影响都是显著的。必须对每个解释变量进行显著性检验,以决定是否作为解释变量被保留在模型中。这一检验是由对变量的 t 检验完成的。,设计原假设与备择假设:,H1:i0,给定显著性水平,可得到临界值t/2(n-k-1),由样本求出统计量t的数值,通过 |t| t/2(n-k-1) 或 |t|t/2(n-k-1) p判断拒绝或不拒绝原假设H0,从而判定对应的解释变量是否应包括在模型中。,H0:i=0 (i=1,2k),例. 凯恩斯消费函数,每周家庭消费支出exp和每周家庭收入income的数据如表,求凯恩斯消费函数。建立二元线性回归模型模型估计结果:,参数估计值,参数估计的标准误,单零检
19、验之t统计量:H0:B=0,方程显著性检验之F统计量,判定系数,边际消费倾向11的假设检验?H0: 11 H1: 11,(4)经济意义检验:一般t检验,一般回归系数的显著性检验用t检验:,拒绝域:,=0.05, T=-1.94 统计上不显著,不能拒绝原假设,与经济理论不符?,剔除不显著变量,边际消费倾向11的假设检验?H0: 11 H1: 1样本容量,多重共线的识别,注意:多重共线是程度问题,而不是有无问题。识别方法:R2值高,F检验显著,但显著t值少。容许度与方差膨胀因子特征根(eigenvalues)和病态指数(condition index),病态指数CI在10-30之间,中强多重共线;
20、CI30,严重多重共线,消费支出与收入和财富关系例,4. 模型的修正,模型存在异方差和序列相关模型存在多重共线模型存在不显著变量(无多重共线)剔除不显著变量参数经济意义不合理变量选择不当、函数形式不当重新设定模型,(1)模型存在异方差和序列相关,如果模型中存在异方差和序列相关,则t检验和F检验均无效,区间预测无效,模型必须修正识别异方差和序列相关的原因遗漏重要变量修改模型,引入遗漏变量样本数据自身特征异方差修正:加权最小二乘法序列相关修正:广义差分方程,(2)多重共线的克服,a. 横截面数据与时间序列数据并用例:汽车需求,假定有销售量、平均价格和消费者收入的时间序列数据,模型为:,时间序列数据
21、,价格和收入变量一般有高度共线的趋势。可利用横截面数据估计收入弹性3,因为这些数据都产生于一个时间点上,价格还不至于有多大变化。令收入弹性的横截面估计为 ,原回归可化为:,多重共线的克服,b. 差分法:时间序列数据间往往有较强的相关性,减小相关性的方法是形成一次差分方程:,虽然x2和x3的水平之可能高度相关,但是,其差分形式相关程度往往较低。因此,一阶差分回归常能减低多重共线性的严重程度。(对于横截面数据,一阶差分不适用。)差分法的问题:随机误差项可能存在序列相关;损失了一次观测值,因而减少了一个自由度,如果样本容量本身就不大,这可能会有影响。,多重共线的克服,c. 补充新数据:以二元回归为例
22、,当r23给定时,增加新样本,通常可以使 增大,从而减少 的方差,使我们能更准确地估计2。,e. 剔除变量:要慎重,设定偏误(偏回归系数估计量有偏),d. 主成分回归,*岭回归法(Ridge Regression),20世纪70年代发展,以引入偏误为代价减小参数估计量的方差。 具体方法是:引入矩阵D,使参数估计量为,其中矩阵D一般选择为主对角阵,即D=aI,a为大于0的常数。,显然,与未含D的参数B的估计量相比,估计量有较小的方差。,例 医院生产率,研究医院人员配备因变量:manhrs(医院要求的工时数),解释变量:Load:平均日均病人数Xray:每月x光的使用次数,Beddays:病床占用
23、日,Stay:病人的平均停留时间, elgpop :该地区人口 做线性模型:,多重共线修正:剔除变量,Load(平均日均病人数)和Beddays(病床占用日)高度共线,剔除Load,F=323.447,下章:主成分回归,多重共线是否一定要修正?,OLS估计仍然是BLUE,参数估计量方差大视情况而定:预测结构分析t是否显著,四、含虚拟变量的回归,一些影响经济变量的因素是无法定量度量。为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”。虚拟变量(定类尺度变量、范畴变量):用来表示某一“性质”或属性出现或不出现,通常取值0或1,因而也称两值变量或两分变量。如:x表示性别,0=男
24、性,1=女性或x=0表示政策实施前,x=1表示政策实施后。同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型或者方差分析(analysis-of variance: ANOVA)模型。,被赋予0值的类别是基底(基准),1是基底类的截距。,1、虚拟变量的性质,例:教授薪金与性别、教龄的关系Yi=1+2Di+Xi+I (1)其中:Yi=教授的薪金, Xi=教龄, Di=性别,男教授平均薪金和女教授平均薪金水平相差2,但平均年薪对教龄的变化率是一样的,2:级差截距系数,薪金与性别:估计结果,男教授平均薪金水平比女教授显著高$3.334K(男:21.3,女:17.969),2、含有虚拟变量的回归问题
25、,虚拟变量的设计对多分定性变量,按照虚拟变量的个数比变量分类数少一的规则设虚拟变量。例如受教育程度分为:低于中学、中学和大学三类,则应设两个虚拟变量:,Yi=1+2D2i+3D3i+Xi+i,“低于中学”类为基底,为什么不能设三个虚拟变量?,2、含有虚拟变量的回归问题,美国制造业的利润-销售额行为季节调整例,D2=1, 第2季度 ; D3=1, 第3季度; D4=1, 第4季度 =0, 其他季度; =0, 其他季度; =0, 其他季度,剔除季节影响,销售额增加1美元,利润可望增加4美分,3、比较两个回归,比较英国在第二次大战后重建时期和重建后时期的总储蓄-收入关系是否发生变化。数据如表。,D=
26、1,重建时期 =0,重建后时期,级差截距:区分两个时期的截距,级差斜率系数:区分两个时期的斜率,级差截距和级差斜率系数都是统计上显著的,表示两个时期的回归是相异的,新食品定价和广告策略研究例,虚拟变量模型与方差分析,协变量调整前,协变量调整后,五、线性回归过程,选择建立回归方程的方法,可以对不同的自变量采用不同的引入方法,选择进入回归分析的样本点,加权最小二乘法,单击此按钮可输入加权变量,方法选择框:,建立回归方程的方法有五种可供选择:进入(强迫引入法):定义的全部自变量均引入方程。移去(强迫剔除法):定义的全部自变量均剔除。向前(向前引入法):自变量由少到多一个一个引入回归方程,直到不能按检
27、验水准引入新的变量为止。缺点:当两个变量一起时效果好,单独时效果不好,有可能只引入其中一个变量,或两个变量都不能引入。,方法选择框:,向后(向后剔除法):自变量由多到少一个一个从回归方程中剔除,直到不能按检验水准剔除为止。能克服向前引入的缺点。逐步(逐步回归):将向前引入法和向后剔除法结合起来,在向前引入的每一步之后都要考虑从已引入方程的变量中剔除作用不显著的变量,直到没有一个自变量能引入方程,也没有一个自变量能从方程中剔除为止。缺点同向前引入法,但选中的变量比较精悍。,“统计量”对话框,D-W检验:检验随机误差项的独立性(序列相关性),个案诊断:特异值或全部样本,显示其标准化残差、实测值、预
28、测值和残差。,默认选项,共线诊断,“图”对话框,散点图:输入纵坐标和横坐标。为获得更多散点图,可单击“next”按钮,标准化残差图,直方图,残差的正态概率图,DEPENDENT:因变量,*ZPRED:标准化预测值,*ZRESID:标准化残差,*DRESID:删除的残差,*ADJPRED:调整预测值,*SRESID:student氏残差,*SDRESID: student氏删除残差。,预测值的标准误,预测区间估计:均值的预测区间和个体y值的预测区间,“保存”对话框,“选项”对话框,逐步方法准则:以F的概率p值为准则或以F值为准则(均给出引入值和剔除值),当F的p值小于等于引入值时,引入相应变量;
29、当F的p值大于等于剔除值时,剔除相应变量。,本章小结 多元回归模型,多元回归模型描述了被解释变量与诸解释变量的依赖关系偏回归系数i表示其它解释变量不变的条件下,第i个解释变量变化对被解释变量的 “净” 影响。偏回归系数的估计方法:最小二乘估计当经典假设满足时,OLS估计量为最优线性无偏估计量,多元回归模型的建模过程,明确所研究的问题,确定因变量通过定性分析,找到导致因变量变化的主要影响因素,作为解释变量收集数据,整理数据,数据的初步分析分析因变量与各解释变量间关系的性质,确定模型的函数形式建立计量模型,确定各偏回归系数的先验符号,多元回归模型的建模过程(续),用OLS估计模型的参数,并作各种检
30、验经典假设检验:多重共线、异方差、序列相关如果存在异方差/序列相关,统计检验无效统计检验:t检验,F检验,判定系数经济意义检验:各偏回归系数的符号是否与预期一致筛选完善模型:不遗漏重要变量,无多余变量,参数经济意义合理模型的应用:预测、结构分析、政策建议注意:不同形式模型偏回归系数的经济含义,回归建模示例1:粮食生产模型,根据理论和经验分析,影响粮食生产(Y)的主要因素有:农业化肥施用量(X1), 粮食播种面积(X2),成灾面积(X3),农业机械总动力(X4), 农业劳动力(X5)已知中国粮食生产的相关数据,建立中国粮食生产函数:,Y=0+1 X1 +2 X2 +3 X3 +4 X4 +4 X5 +,模型估计结果,无异方差,无序列相关,存在多重共线,差分消除共线,经检验,无异方差,无序列相关,无多重共线,可剔除两个不显著变量,剔除两个不显著变量,剔除变量法:先剔除“劳动力”,剔除“劳动力”和“机械总动力”,可检验无序列相关,无异方差,