1、1第三章 异方差与自相关广义线性模型本章继续讨论线性模型Y=X +, E ()=0 (3.0.1)所不同在于以前的关于误差方差的假定是Var()= 2In (3.0.2)这一章逐次推广讨论。第一节讨论异方差的存在与检验,尤其是在经济模型资料中的存在与影响,第二节讨论的是已知 (3.0.3)idiagVrn,1,),()(221 未知 (3.0.4)2122,), a, 未知 (3.0.5)exp(),()(21iinZir 这些都是误差方差为对角阵的模型。第三节讨论自相关线性模型。首先讨论的是残差一阶自回归线性模型,它的残差满足(3.0.6)iii1(3.0.7))(,0)(,)(,0)(2j
2、iEEjiii 此时残差 i 的方差虽不为对角阵,但只含一个参数。接着我们介绍自回归条件异方差(ARCH)模型,它的误差假设是(3.0.8)ipiii 22102(3.0.9))(,0)(,)(,)( jEEjiii 因为模型计算中用到了广义矩估计方法(GMM),我们在第四节又介绍了 GMM。第五节讨论的是未知,M 已知22 ,0)(Var(3.0.10)第六节讨论的是未知,M 已知22 ,)(r(3.0.11)所讨论的内容还是各种回归模型、算法及性质。2第一节 异方差的存在与检验一、异方差的存在与影响前面介绍的线性回归模型,都是假定随机误差项 i 独立同分布,有相同的方差 (Homosced
3、asticity)(3.1.1)2)( ,0)(iiVarE但是实际抽样很难保证这一点。经济对象千差万别,可以按不同标准划分成不同的群体。这些群体间的差别导致样本方差不一致,于是就有所谓异方差(Heteroscedasticity):(3.1.2)2)( ,)(iiir反映在散点图上,如下图可以明显看出样本方差与点 (Xi, Yi)有关,随着样本数值增大而增大。图 3.1.1.1由于样本方差的差异,原来最小二乘估计的一些优良性质不再存在。如在一元线性回归(3.1.3)niXYii ,1 ,10我们知道最小二乘估计(3.1.4)niiXinjii iiXY YSXYS1121 )((3.1.5)
4、ni iXi10 )(3于是(3.1.6))()()(21iniXi YVarSVar(3.1.7))()( 210 ini Xi现在 Var(Yi)不是常量,我们就无法证明 是最小方差线性无偏估计。显著性检验也成了0,问题。原来构造的 F 统计量是分子分母都含有未知参数 2, 可以分别提取公因式再约去,现在是异方差,按原来方法构造的 F 统计量里的未知参数无法直接约去,预测精度也无法保证。差不多原来推导的各种统计方法、统计性质由于基础动摇而都需重新考虑。因此我们需要将一般线性回归模型推广。 不过在推广之前,首先要解决异方差的检验问题。二、异方差的检验异方差的检验一般需要比较大的样本,一般都是
5、作所谓残差分析。图 3.1.2.1最简单直观的方法是将残差平方2eY Y2e2e 2eYY4(3.1.8)niYeiii ,1 ,)(22与 画在一张图上,大致可以看出残差是否发生改变。图 3.1.2.1 除了第 1 个图外,其余图像iY都指示有异方差。还有一些方法对异方差问题作统计检验。1. Park 检验R. E. Park 建议将 看作解释变量 X 的函数,并使用函数形式为2i(3.1.9)iei2或取对数 iii lnlln22其中 是随机分布项。因为 未知,就用残差项的平方 代替ii2ieiii Xell22对上式作回归,并作假设检验。若 =0 成立,则认为异方差不成立;若 0 成立
6、,则认为异方差成立。Park 检验要作两次最小二乘,第一次是对原始资料对( Xi, Yi), 获得 ;第二次是对(ie,)。从某种意义上讲,是用第二次最小二乘去否定第一次最小二乘,用第二次假设去否2,ieX定第一次假设。类似的还有 Glejser 检验,不过使用的回归方程不一样。2. Breusch Pagan Godfrey (BPG)检验这里考虑的是多元问题,基本思想差不多。设原始资料满足模型 imiii XY10(3.1.10)先用普通最小二乘获得 ,作ie,niiini Ye12122 )((3.1.11)注意这里不是 。然后定义变量niiiYm122)(52/iiep(3.1.12)
7、用 pi 与 Xji 去作回归 imiii X10(3.1.13)而获得回归平方和 SES, 定义统计量 niiiESp12)(2(3.1.14)可以证明在正态假设下,当样本容量充分大时, 有渐近分布:)(,21nm(3.1.15)于是对给定显著性水平,当 超过 分布的临界值时,就拒绝同方差假设,接受异方差假2设。算例 3.1.2 消费-收入异方差资料的 BPG 检验在文献1里,收有一组消费(Y )与收入(X) 的资料,共 60 对,要求作异方差检验。表 3.1.2 消费 (Y),收入 (X) 资料Y X Y X Y X55. 80. 152. 220. 95. 140.65. 100. 14
8、4. 210. 108. 145.70. 85. 175. 245. 113. 150.80. 110. 180. 260. 110. 160.79. 120. 135. 190. 125. 165.84. 115. 140. 205. 115. 180.98. 130. 178. 265. 130. 185.95. 140. 191. 270. 135. 190.90. 125. 137. 230. 120. 200.75. 90. 189. 250. 140. 205.74. 105. 55. 80. 140. 210.110. 160. 70. 85. 152. 220.113. 150
9、. 75. 90. 140. 225.6125. 165. 65. 100. 137. 230.108. 145. 74. 105. 145. 240.115. 180. 80. 110. 175. 245.140. 225. 84. 115. 189. 250.120. 200. 79. 120. 180. 260.145. 240. 90. 125. 178. 265.130. 185. 98. 130. 191. 270.当然在计算机数据文件里它是排成 2 列,而不是 6 列。使用我们自编的异方差检验程序,算得原始资料回归方程为 ii XY378.09.(3.1.16)再将 pi 对 X
10、i 回归,得方程 iip1.426.(3.1.17)程序算得统计量0.5(3.1.18)从程序自带的电子数表上查得 =6.6349,因为 5.21406.6349,故在 0.01 的显著性水平,)1(29.0不认为异方差存在,于是有了进一步回归分析的可能。当取显著性水平为 0.05 时, = )1(295.03.8414,于是认为异方差存在,就只打印一般最小二乘回归结果,不能作出基于正态同方差的统计检验。实际计算执行过程如下,由于 F 统计量高达 4722,再看拟合效果图 (图 3.1.2.2),( )IYi,与( )确实拟合非常好。很难想象这里面还会有什么问题。下面是计算过程与结果。IYi,
11、-异方差资料 BPG 检验计算程序, 例 3.1.2. 第一列为 Y, 以后各列为 X 例 312.D 数据文件中, n=60, M=1要显示原始资料吗? 0=不显示, 1=显示 (0)原始资料回归方程 : Y = b0 + b1*X1 + . + bm*Xm 回归系数 b0,b1,b2, 9.2903 .6378 .0000残差平方和: 4722.31 回归平方和 : 83773.38误差方差的估计 : .0000 标准差 = 8.87167请输入卡方检验的置信水平 (0.01)BPG 检验结果: 显著性水平: .01 统计量 5.2140 卡方临界值: 6.6349方差资料回归方程 : P
12、i = a0 + a1*X1 + . + am*Xm 回归系数 a0,a1,a2, -.7426 .0101 .0000残差平方和: 97.82 回归平方和: 20.86误差方差的估计 : .0000 标准差 = 1.2768BPG 检验通过, 不认为有异方差, 对原始资料进行一般回归分 析并打印计算结果 现在作线性回归显著性检验, 计算 t,F,R 统计量请输入显著性水平 a, 通常取 a=0.01, 0.05, 0.10, a=? (0.01)-线 性 回 归 分 析 计 算 结 果 样本总数 60 自变量个数 1-回归方程 Y = b0+b1*X1+.+b1*X1Y = 9.2903 +
13、 .6378 X1 回归系数 b0, b1, b2, ., b19.2903 .6378-残差平方和: 4722.31 回归平方和: 83773.38误差方差的估计 : 78.7051 标准差 = 8.8716-线 性 回 归 显 着 性 检 验 显著性水平 : .010-回归方程整体显著性 F 检验, H0:b0=b1=.=b1=0F 统计量: 1028.9160 F 临界值 F(1, 58) 7.093全相关系数 R : .9730-回归系数逐一显著性 t 检验, H0:bi=0, i=1,.,1t 临界值 t( 58) 2.3924回归系数 b1-b 1 的 t 值: 7.6158-要作
14、回归预测吗? 键入 0=不预测, 1=要预测 (0)要打印拟合数据吗? 0=不打印, 1=打印 (0)计算结束。 -圖 3.1.2.20501001502002501 5 9 13 17 21 25 29 33 37 41 45 49 53 57原 始 数 据拟 合 数 据再看原始资料的散点图 (Yi, Xi ) (图 3.1.2.3),觉得资料似乎分为两段,前段方差较小,后段方差较大。8图 3.1.2.3再看残差图 (图 3.1.2.4), 确实存在明显的异方差,在 Y=140 以前,方差较小,iYe,2在 Y=140 以后,方差明显增大。这些图像都由本软件自动生成,很方便。图 3.1.2.
15、4第二节 协方差为对角阵的广义线性模型一、协方差为已知对角阵与广义最小二乘我们先考虑简单的情况,设模型为(3.2.1)),()(,0)( 221ndiagVarEXY9如果 已知,也就是 已知,则我们定义 的广义最小二乘估计为ni,1,2(3.2.2)YX11)(广义最小二乘估计 (Generalized Least Square Estimate) 简称为 GLS 估计,是 A. C. Aitken(1934)首先提出来的。在 是对角阵的情形,容易找到(3.2.3)),(112ndiagP使得(3.2.4)1我们定义变换(3.2.5)PYPX* , ,则原模型成为(3.2.6)nIVarE)
16、(,0)(*(3.2.7)1YX这就转化成了普通的最小二乘估计。这种情况的估计也称为加权最小二乘估计 (Weighted Least Square Estimate, WLS 估计) ,因为我们实际上是对观测值作了加权处理,权函数是 。此时我们极小化的函ni,1,数是(3.2.8)nii XY112 )()(我们看到,较小的 i 将使该项变大,从而发挥较大的作用,而较大的 i 表示该项资料不可靠,就使其发挥较小的作用。这一点从(3.2.9)niinii YX1212也容易看出。二、仅含两个未知方差量的模型下面考虑方差未知的情况,很明显这时未知方差不能太多。如果是全部未知,我们就无从下手了。因为
17、一共只有 n 组资料,如何去估计),(21ndiag10n 个方差?我们就假定只有两个方差量的情况, 未知,模型被划分为21与 2122XY(3.2.10)这里 。 。niXYii nmn 2111 ;, )(),(),( 212121 XY21210)()( nIEVar (3.2.11)这样模型可以被划分成两个模型,它们必须要有相同的回归系数,但方差则不同。 222111)(,nIVarXY(3.2.12)我们当然不能想象这两个子模型完全分开,各算各的。在 和 已知时,由前一段的广义最小二乘方法,有21 2122111)( YXXYX(3.2.13)现在情况是 与 未知,必须先估计它们。这倒不难,方差是分开的,在各自的子模型中21估计就是了: 2,1)( 2,1)()(12iYXiXYmnSii iiiiiRi(3.2.14)在有了各自的方差估计后,在 (3.2.13)中以 换 就回到 的估计2ii 2122111 )( YXYX(3.2.15)