1、11.3 多元线性回归与最小二乘估计1假定条件、最小二乘估计量和高斯 马尔可夫定理多元线性回归模型:yt = 0 +1xt1 + 2xt2 + k- 1xt k -1 + ut , (1.1)其中 yt 是被解释变量(因变量) ,x t j 是解释变量(自变量) ,u t 是随机误差项, i, i = 0, 1, , k - 1 是回归参数(通常未知) 。对经济问题的实际意义:y t 与 xt j 存在线性关系,x t j, j = 0, 1, , k - 1, 是 yt 的重要解释变量。u t 代表众多影响 yt 变化的微小因素。使 yt 的变化偏离了 E( yt) = 0 +1xt1 +
2、2xt2 + k- 1xt k -1 决定的 k 维空间平面。当给定一个样本(y t , xt1, xt2 , xt k -1), t = 1, 2, , T 时, 上述模型表示为y1 = 0 +1x11 + 2x12 + k- 1x1 k -1 + u1, 经济意义:x t j 是 yt 的重要解释变量。y2 = 0 +1x21 + 2x22 + k- 1x2 k -1 + u2, 代数意义:y t 与 xt j 存在线性关系。. 几何意义:y t 表示一个多维平面。yT = 0 +1x T 1 + 2x T 2 + k- 1x T k -1 + uT, (1.2)此时 yt 与 x t i
3、 已知, j 与 ut 未知。(1.3)1(21)1(0)(11222111)1(21 TkkTTjTkjT uxxy Y = X + u , (1.4)为保证得到最优估计量,回归模型(1.4)应满足如下假定条件。假定 随机误差项 ut 是非自相关的,每一误差项都满足均值为零,方差 2相同且为有限值,即E(u) = 0 = , Var (u) = E( ) = 2I = 2 10假定 解释变量与误差项相互独立,即E(X u) = 0假定 解释变量之间线性无关。rk(X X) = rk(X) = k 其中 rk()表示矩阵的秩。假定 解释变量是非随机的,且当 T 时T 1X X Q 其中 Q 是
4、一个有限值的非退化矩阵。最小二乘 (OLS) 法的原理是求残差(误差项的估计值)平方和最小。代数上是求极值问题。2minS = (Y - X ) (Y - X ) = Y Y - X Y - Y X + X X= Y Y - 2 X Y + X X (1.5)因为 Y X 是一个标量,所以有 Y X = X Y。(1.5) 的一阶条件为: = - 2X Y + 2X X = 0 (1.6)S化简得 X Y = X X 因为 (X X ) 是一个非退化矩阵(见假定) ,所以有= (X X)-1 X Y (1.7)因为 X 的元素是非随机的,(X X) -1X 是一个常数矩阵,则 是 Y 的线性组
5、合,为线性估计量。求出 ,估计的回归模型写为Y = X + (1.9)u其中 = ( ) 是 的估计值列向量, = (Y - X ) 称为残差列向量。因为011k u= Y - X = Y - X (X X)-1X Y = I - X (X X)-1 X Y (1.10)所以 也是 Y 的线性组合。 的期望和方差是uE( ) = E(X X)-1 X Y = E(X X)-1X (X + u) = + (X X)-1X E(u) = (1.11)Var( ) = E( ) ( )= E(X X)-1X u u X (X X)-1= E(X X)-1X 2I X (X X)-1 = 2 (X X
6、)-1 (1.12)高斯马尔可夫定理:若前述假定条件成立,OLS 估计量是最佳线性无偏估计量。具有无偏性。 具有最小方差特性。 具有一致性,渐近无偏性和渐近有效性。2. 残差的方差s2 = / (T - k) (1.13)us 2 是 的无偏估计量,E(s 2 ) = 。 的估计的方差协方差矩阵是( ) = s (X X)-1 (1.14)Var3. 多重确定系数(多重可决系数)Y = X + = + (1.15)u3总平方和SST = = Y Y - T , (1.16)Tty12)(2y其中 是 yt 的样本平均数,定义为 = 。回归平方和为t/)(1SSR = = - T (1.17)T
7、ty12)(2y其中 的定义同上。残差平方和为ySSE = = = (1.18)Ttty12)(Ttu12则有如下关系存在,SST = SSR + SSE (1.19)R2 = (1.20)2yTS-Y显然有 0 R 2 1。R 2 1,拟合优度越好。4. 调整的多重确定系数当解释变量的个数增加时,通常 R2 不下降,而是上升。为调整因自由度减小带来的损失,又定义调整的多重确定系数 如下:= 1 - = 1 - (1.21)2R)(1)/(STkTSkE )(2Rk5. OLS 估计量的分布若 u N (0, I ) ,则每个 ut 都服从正态分布。于是有Y N (X, I ) (1.22)因
8、 也是 u 的线性组合(见公式 1.7) ,依据(1.11)和(1.12)有 N ( , (X X)-1 ) (1.23)6. 方差分析与 F 检验与 SST 相对应,自由度 T-1 也被分解为两部分,(T-1) = (k -1) + (T- k) (1.24)回归均方定义为 MSR = ,误差均方定义为 MSE = 1SRkTSE表 1.1 方差分析表方差来源 平方和 自由度 均方回归 SSR = -T 2Yyk-1 MSR = SSR / (k-1)误差 SSE = uT-k MSE = SSE / (T-k)总和 SST= Y Y - T 2 T-14H0: 1= 2 = = k-1 =
9、 0; H1: j 不全为零F = = F(k-1,T-k) (1.25)MSER)/(设检验水平为 ,则检验规则是,若 F F (k-1,T-k),接受 H0;若 F F (k-1,T-k) , 拒绝 H0。0 F (k-1, T-k) -t(T-k) 0 t(T-k)F 检验示意图 t 检验示意图7t 检验H 0: j = 0, (j = 1, 2, , k-1), H 1: j 0t = = t(T-k) (1.26)(js 12)()jjjj sVarX判别规则:若 t t k 接受 H 0;若 t t k 拒绝 H 0。8 i 的置信区间(1) 全部 i 的联合置信区间接受F = (
10、 - ) (X X) ( - ) / s2 F (k, T-k) (1.27)k( - ) (X X ) ( - ) s2 k F (k, T-k),它是一个 k 维椭球。 (1.28)(2) 单个 i 的置信区间i = s tk . (1.29)i1jv9预测(1)点预测C = (1 xT+1 1 xT+1 2 xT+1 k-1 ) (1.30)则 T + 1 期被解释变量 yT+1 的点预测式是,= C = 0 + 1 xT+1 1 + + k-1 xT+1 k-1 (1.31)y(2)E(y T+1) 的置信区间预测首先求点预测式 C 的抽样分布E( ) = E(C ) = C (1.3
11、2)1Var( ) = Var(C ) = E(C - C ) (C - C ) Ty= EC ( - ) C ( - ) = C E( - ) ( - ) C = C Var( )C = C 2 (X X )-1C = 2 C (X X )-1C , (1.33)5因为 服从多元正态分布,所以 C 也是一个多元正态分布变量,即 = C N (C, 2C (X X ) -1C ) (1.34)1Ty构成 t 分布统计量如下t = = t (T-k) (1.35)(1XsyET)(1s置信区间 C t/2 (1, T-k) s (1.36) CX(3) 单个 yT+1 的置信区间预测yT+1 值
12、与点预测值 有以下关系1yT+1 = + uT+1 (1.37)其中 uT+1 是随机误差项。因为E( yT+1) = E( + uT+1) = C (1.38)1Var( yT+1) = Var( ) + Var(uT+1) = 2 C (X X)-1C + 2y= 2 (C (X X)-1C + 1) (1.39)因为 服从多元正态分布,所以 yT+1 也是一个多元正态分布变量,即yT+1 N (C, 2C (X X ) -1C + 1)与上相仿,单个 yT+1 的置信区间是C t/2 (T-k) s (1.40) )(1计算举例:(见计量经济分析第 19-27 页,熟悉矩阵运算)10.
13、预测的评价指标注意,以下 6 个公式中的 et 表示的是预测误差,不是残差。可以在样本内、外预测。(1) 预测误差。预测误差定义为et = - yt, t = T+1, T+2, 是对单点预测误差大小的测量。(2) 相对误差 PE (Percentage Error)。PE = , t = T+1, T+2, ty是对单点预测相对误差大小的测量。(3) 误差均方根 rms error (Root Mean Squared Error)rms error = Tttty12)(通过若干个预测值对预测效果进行综合评价。(4) 绝对误差平均 MAE (Mean Absolute Error)6MAE
14、 = Ttty1通过若干个预测值对预测的绝对误差进行综合评价。(5) 相对误差绝对值平均 MAPE (Mean Absolute Percentage Error)MAPE = Ttty1综合运用以上 4 种方法,通过若干个预测值对预测的相对误差进行综合评价。以上 6 个式子中, 表示预测值,y t 表示实际值。Theil 的取值范围是 0,1。显然在t预测区间内,当 与 yt 完全相等时, Theil = 0;当预测结果最差时,Theil = 1。公式中的累t加范围是用 1 至 T 表示的,当然也可以用于样本外预测评价。11建模过程中应注意的问题05105205308182384586789
15、0912GDPGDP(f)(1)研究经济变量之间的关系要剔除物价变动因素。以上图为例,按当年价格计算,我国 1992 年的 GDP 是 1980 年的 5.9 倍,而按固定价格计算,我国 1992 年的 GDP 是 1980年的 2.8 倍。另外从图中还可看出,1980-1992 期间按名义价格计算的 GDP 曲线一直是上升的,而按不变价格(1980 年价格)计算的 GDP 曲线在 1989 年出现一次下降。可见研究经济变量应该剔除物价变动因素。(2) 依照经济理论以及对具体经济问题的深入分析初步确定解释变量。例:我国粮食产量 = f(耕地面积、农机总动力、施用化肥量、农业人口等) 。但根据我
16、国目前情况, “耕地面积”不是“粮食产量”的重要解释变量。粮食产量的提高主要来自科技含量的提高。例:关于某市的食用油消费量,文革前常驻人口肯定是重要解释变量。现在则不同,消费水平是重要解释变量,因为食用油供应方式已改变。(3) 当引用现成数据时,要注意数据的定义是否与所选定的变量定义相符。例:“农业人口”要区别是“从事农业劳动的人口”还是相对于城市人口的“农业人口” 。例:2002 年起我国将执行新的规定划分三次产业。即将农、林、牧、副、渔服务业从原第三产业划归第一产业。(4) 通过散点图,相关系数,确定解释变量与被解释变量的具体函数关系。 (线性、非线性、无关系)7(nonli8)(5)谨慎
17、对待离群值(outlier) 。离群值可能是正常值也可能是异常值。不能把建立模型简单化为一个纯数学过程,目的是寻找经济规律。年 INV(投资) IMPORT(进口)1991 2.562000 23.470001992 2.429700 32.290001993 6.712400 63.990001994 15.37600 78.750001995 21.31000 149.13001996 27.37000 113.81001997 41.71000 106.15001998 39.78000 112.2000(6) 过原点回归模型与非过原点回归模型相比有如下不同点。以一元线性过原点模型,yt
18、 = 1 xt + ut ,为例, = 0 不一定成立。原因是正规方程只有一个(不是两个) ,tu= 2 (yt - xt) (- xt) = 0,1)(t 1即 xt = 0,而没有 = 0。所以残差和等于零不一定成立。可决系数 R 2 有时会得utu负值!原因是有时会有 SSESST。为维持 SSE+SSR=SST,迫使 SSR t) = , P( t t) = -t(T-k) 0 t(T-k) F(k-1,T-k)(10) 对于多元回归模型,当解释变量的量纲不相同时,不能在估计的回归系数之间比较大小。若要在多元回归模型中比较解释变量的相对重要性,应该对回归系数作如下变换* = , j =
19、 1, 2, k-1 (1.41)jj)(tjysx其中 s(xt) 和 s(yt) 分别表示 xt 和 yt 的样本标准差。 *可用来直接比较大小。j以二元模型为例,标准化的回归模型表示如下(标准化后不存在截距项) ,= 1* + 2* + + ut)(tys)(txs)(2txs两侧同乘 s(yt),得(yt - ) = 1* (xt1 - ) + 2* (xt2 - ) + + ut s(yt)tsy)tsy所以有j* = j, 即 j* = j , i = 1, 2, k-1)(tjxsy)(tys既是 (1.41) 式。(11) 利用回归模型预测时,解释变量的值最好不要离开样本范围太
20、远。原因是根据预测公式离样本平均值越远,预测误差越大。以一元回归模型为例; N (0 + 1 xF, (1+ + ) )Fy T12(xtF从公式看,当 xF = 时, 的分布方差最小,即预测区间最小,预测精度最高。而预测点yxF 越远离 , 的分布方差越大,即预测区间越大,预测精度越差。y有时,样本以外变量的关系不清楚。当样本外变量的关系与样本内变量的关系完全不同时,在样本外预测就会发生错误。图 3.10 给出青铜硬度与锡含量的关系曲线。若以锡含量为 0-16%为样本,求得的关系近似是线性的。当把预测点选在锡含量为 16%之外时,9显然这种预测会发生严重错误。因为锡含量超过 16%之后,青铜
21、的硬度急剧下降,不再遵从锡含量为 0-16%时的关系。图 3.9 yt 的区间预测的变化 图 3.10 青铜硬度与锡含量的关系46810125605705805905LOG(TRADE)(12) 回归模型的估计结果应与经济理论或常识相一致。如边际消费倾向估计结果为1.5,则模型很难被接受。(13) 残差项应非自相关(用 DW 检验,亦可判断虚假回归) 。否则说明仍有重要解释变量被遗漏在模型之外。选用的模型形式不妥。(14) 通过对变量取对数消除异方差。(15) 避免多重共线性。(16) 解释变量应具有外生性,与误差项不相关。(17) 应具有高度概括性。若模型的各种检验及预测能力大致相同,应选择
22、解释变量较少的一个。(18) 模型的结构稳定性要强,超样本特性要好。(19) 世界是变化的,应该随时间的推移及时修改模型。建模案例 1:全国味精需求量的计量经济模型(见预测1987 年第 2 期)1依据经济理论选择影响味精需求量变化的因素依据经济理论一种商品的需求量主要取决于四个因素,即商品价格,代用品价格,消费者收入水平,消费者偏好。模型为:商品需求量 = f (商品价格,代用品价格,收入水平,消费者偏好)对于特定商品味精,当建立模型时要对上述四个因素能否作为重要解释变量逐一鉴别。商品价格:味精是一种生活常用品,当时又是一种价格较高的调味品。初步判断价格会对需求量产生影响。所以确定价格作为一
23、个重要解释变量。代用品价格:味精是一种独特的调味品,目前尚没有替代商品。所以不考虑代用品价格这一因素。消费者收入:显然消费者收入应该是一个较重要的解释变量。偏好:由于因偏好不食味精或大量食用味精的情形很少见,所以每人用量只会在小范10围内波动,所以不把偏好作为重要解释变量,而归并入随机误差项。分析结果,针对味精需求量只考虑两个重要解释变量,商品价格和消费者收入水平。味精需求量 = f (商品价格,收入水平)2选择恰当的变量(既要考虑代表性,也要考虑可能性)用销售量代替需求量。因需求量不易度量,味精是自由销售商品,不存在囤积现象,所以销售量可较好地代表需求量。味精商品价格即销售价格。用人均消费水
24、平代替收入水平。因为消费水平与味精销售量关系更密切。消费水平数据在统计年鉴上便于查找(收入水平的资料不全) 。味精销售量 = f (销售价格,人均消费水平)用平均价格作为销售价格的代表变量。不同地区和不同品牌的味精价格是不一样的,应取平均价格(加权平均最好) 。取不变价格的人均消费水平:消费水平都是用当年价格计算的,应用物价指数进行修正。味精销售量 = f (平均销售价格,不变价格的消费水平)3 收集样本数据(抽样调查,引用数据)从中国统计年鉴和有关部门收集样本数据 (1972-1982, T = 11。数据见下页。)。定义销售量为 yt(吨) ,平均销售价格为 x1(元 / 公斤) ,不变价
25、格的消费水平为 x2(元) 。相关系数表如下:平均销售价格 (x1t) 不变价格的消费水平 (x2t)味精销售量( yt) -0.3671 0.9771注:临界值 r0.05 (9) = 0.60。01203405601.1.21.41.61.812.012.XY01203405601120140160180X2Y4 确定模型形式并估计参数= -144680.9 + 6313.4 x1t + 690.4 x2t (1)ty(-3.92) (2.17) (15.32) R2 = 0.97, DW = 1.8, t0.05 (8) = 2.3回归系数 6313.4 无显著性(x1 t 与 x2t 应该是负相关,回归系数估计值却为正,可见该估计值不可信) 。剔除不显著变量 x1t,再次回归,= -65373.6 + 642.4 x2t (2)ty(-10.32) (13.8) R2 = 0.95, DW = 1.5, t0.05 (9) = 2.26问题: = 6313.4,为什么检验结果是 1 = 0? 量纲的变化对回归结果会造成影响吗?1