1、第 2 章 一元线性回归模型2.0 通过案例学习回归分析案例 1 中国宏观消费分析( file:china )摘自经济蓝皮书 2004 年:中国经济形势分析 与预测和经济计量分析第 1 章案例。按照我国现行国民经济核算体系,国内生产总值(按支出法计算) 是由最终消费、 资本形成总额和货物与服务的净出口之和三部分组成。 前两部分占绝大多数。 其中最终消费又分为居民消费和政府消费两类。而居民消费又可分为农村居民消费和城镇居民消费。在这种核算体系下, 居民消费包括居民个人日常生活中衣、食、住、 用等物质消费以及在文化生活服务性支出中属于物质产品的消费。政府消费包括国家机关、国防、治安、文教、卫生、科
2、研事业单位,经济建设部门的事业单位,人民团体等非生产机构使用的燃料、电力、办公用品、图书、设备等物质消费。国内生产总值中最终消费与资本形成总额的比例关系, 即旧核算体系下国民收入中消费与积累的比例关系是国民经济正常运行的最基本的比例关系。 如果这一比例关系发生严重失调,最终会成为制约经济正常运行的严重障碍。下 面 分 析 中 国 的 消 费 问 题 。 为 消 除 物 价 变 动 因 素 以 及 异 方 差 的 影 响 , 以 下 分 析 所 用 的数 据均为不变价格数据( 1952 = 1) 以及分别取自然对数后的数据。图 2.1 给出不变价格的国内生产总值与消费曲线,图 2.2 给出国内生
3、产总值与消费的年增长率曲线。2500020000CONSP GDPP0 . 30 . 2growth of consumption growth of GDP15000100000 . 10 . 0- 0 . 15000 - 0 . 2055 60 65 70 75 80 85 90 95 00- 0 . 355 60 65 70 75 80 85 90 95 00图 2.1 国内生产总值与消费(不变价格)曲线 图 2.2 国内生产总值与消费年增长率曲线由图 2.1、 2.2 可以看出国内生产总值与消费的增长都很快。 国内生产总值曲线的波动幅度相比较大。消费曲线的波动幅度相对较小。这与宏观消费
4、行为具有“惯性”有关。它既不可能随时间突然大幅增加,也不可能随时间突然大幅减少。1952-1978 1979-2002平均增长率 年增长率的标准差 平均增长率 年增长率的标准差GDP 5.76% 0.10 9.15% 0.044消费 4.79% 0.05 9.18% 0.0401952-1978 年国民收入年平均增长率为 5.76% 。 1978-2002 年的年平均增长率为 9.15%。后一时期是前一时期的 1.6 倍(不变价格) 。在后一时期里,经济增长速度如此之高,持续时间如此之长,发展趋势如此之稳定,在我国的经济发展史上是没有先例的。0.850.800.75rate=consumpti
5、on/GDP0 . 9 50 . 9 0household/total0.70 0 . 8 50.650.600 . 8 00.55 55 60 65 70 75 80 85 90 95 000 . 7 555 60 65 70 75 80 85 90 95 00图 2.3 年消费率曲线( 1952-2002) 图 2.4 居民消费与总消费比的变化曲线( 1952-2002)0.9RATIO HOURATIO0.80.70.60.50.455 60 65 70 75 80 85 90 95 00图 2.5 宏观消费比率与居民消费比率曲线( 1952-2002)下面分析消费率(消费额 / 国内生
6、产总值, 1952-2002)序列的变化。见图 2.3,总的 来说变化幅度较大。( 1) 从趋势看,中国宏观消费比率值的变化是逐年下降。消费比率数据对时间 t(1952=1)的回归结果如下:ratio = 0.7581 0.0036t(62.9) (-8.8) R2 = 0.61 ( 1952-2002)51 年间消费比率值平均每年减少 0.0036。表 2.1 中国消费比率数据的特征数消费比率的特征数 消费比率的特征数特征数名称 (19521978) ( 19792002)均值 0.7057 0.6206标准差 0.0656 0.0324极大值 0.8379 0.6751极小值 0.5660
7、 0.5749变异系数 0.0930 0.0522样本容量 27 24注:( 1)消费比率= 中国宏观消费 / GDP。( 2) 19521999 年消费和 GDP 数据摘自新中国五十年统计资料汇编, 1999中国统计出版社。 20002002 年消费和 GDP 数据摘自中国统计年鉴,2003,中国统计出版社。(3)消费比率数据的特征数用消费比率数据计算。( 2) 以 1978 年为界,改革开放之前( 1949 1978) 消费比率曲线波动大,改革开放之后( 1979 2002)消费比率曲线波动小 (见图 2.5 和表 2.1) 。1 952 1978 年宏观消费比率值的均值是 0.7057,
8、 标准差是 0.0656。 1979-2002 年宏观消费比值的均值是 0.6206。标准差是 0.0324。 改革开放以后宏观消费比率值平均比改革开放前下降 0.085。 随着时间的推移, 消费比率的均值减小, 标准差减小。 改革开放之后标准差减小说明宏观消费比率值的波动在减小,中央政府调控宏观经济的能力逐步在提高。( 3) 宏观消费比率的最小值是 0.5660,最大值是 0.8379。都发生在上世纪 50 年代末和60 年代初的经济困难时期。 最小值 0.5660 发生在 1959 年是由于基本建设投资的极度扩张造成的( 1958 和 1959 年基本建设投资的年增长率分别是 87.7%
9、和 30.0% )。最大值是 0.8379发生在 1962 年是由于执行经济调整政策,首先解决人民生活所致。( 4) 中国宏观消费比率值自 1993 年起跌破 0.60 大关。 1995 年达到最低点 0.575。近10 年来,宏观消费比率值基本上在 0.60 以下徘徊,平均值是 0.5876。在中央政府努力扩大消费的政策下虽然宏观消费比率值在 1999 和 2000 年回升至 0.60 以上,但 2001 和 2002 年又跌落到 0.60 以下。当然这并不意味着中国宏观消费绝对值的减少。相反,宏观消费总量 一直在快速提高。因为固定资产投资以更快的速度增长,所以导致宏观消费比率值偏低。( 5
10、) 图 2.4 给出居民消费占总消费的比率曲线。该比值从 0.91 直线下降至 0.76。这一 方面反映出政府消费越削越增的过程,同时也反映出居民消费占总消费的比率变得越小。中国宏观消费比率的国际比较。共选择 6 个工业发达国家和 4 个发展中国家和地区的 GDP 和宏观消费数据经计算后, 与中国进行宏观消费比率的对比。 6 个工业发达国家是英国、美国、法国、意大利、加拿大和日本( GDP 和消费均为年度数据,德国由于数据不全未选) 。 4 个发展中国家和地区是菲律宾、墨西哥、香港( GDP 和消费均为季节数据)和韩国( GDP 和消费为年度数据) 。上述10 个国家和地区的宏观消费比率曲线与
11、中国宏观消费比率曲线的对比分别见图 2.6 和图 2.7。11 个国家和地区宏观消费比数据的 5 个特征数见表 2。 结合图 6.7 和图 6.8 以及表 6.2, 分析 如下:图 2.6 美国、英国、加拿大、法国、意大利、日本与中国的消费比率曲线比较图 2.7 墨西哥、香港、菲律宾、韩国与中国大陆的消费比率曲线比较( 1) 在这 11 个国家和地区中, 无论是和工业发达国家还是发展中国家和地区相比, 中国的宏观消费比率都是最低的。( 2) 年平均消费比率在 0.7 以上的国家按消费比率值大小顺序排列是英国、菲律宾、美国、法国、意大利、加拿大和墨西哥(见表 2.2 中第一栏) 。年平均消费比率
12、在 0.60.7 之 间的国家是日本、香港、韩国和中国(见表 2.2 中第二栏) 。显然,这种差别与文化传统有着密切的联系。 前 7 个国家都是具有西方文化色彩的国家; 而后 4 个国家都是具有东方文化色彩的国家。( 3) 从消费比率的标准差和变异系数来看,排除菲律宾、墨西哥和香港(这 3 个国家 的数据为季节数据,他们的方差与其他国家无可比性) ,中国和韩国是消费比率值变化最大的国家。中国消费比率标准差是变化最小的法国和意大利的 3 倍多。在消费比率低于 0.7 的 国家与地区中, 日本和韩国的消费比率曲线是先降后升; 香港呈震荡变化特征; 而中国则是呈逐年下降趋势。表 2.2 加拿大、中国
13、等 11 个国家与地区宏观消费比数据的特征值比较国别 均值 标准差 极大值 极小值 变异系数 样本容量英国 ( 19802002,年度数据) 0.8311 0.0154 0.8606 0.8051 0.0185 23菲律宾( 19822002,月度数据) 0.8259 (0.0499) 0.9203 0.6829 (0.0604) 88美国 ( 19802002,年度数据) 0.8213 0.0140 0.8544 0.7884 0.0170 23法国 ( 19802002,年度数据) 0.7905 0.0106 0.8074 0.7734 0.0134 23意大利( 19802002,年度数
14、据) 0.7748 0.0103 0.7931 0.7512 0.0133 23加拿大( 19802002,年度数据) 0.7744 0.0243 0.8279 0.7384 0.0314 23墨西哥( 19822002,月度数据) 0.7709 (0.0446) 0.8516 0.6487 (0.0579) 88日本 ( 19802002,年度数据) 0.6940 0.0241 0.7501 0.6600 0.0347 23香港 ( 19802002,月度数据) 0.6708 (0.0339) 0.7780 0.5874 (0.0505) 92韩国 ( 19802002,年度数据) 0.66
15、65 0.0420 0.7513 0.5976 0.0630 23中国 ( 19802002,年度数据) 0.6197 0.0328 0.6751 0.5749 0.0529 23注: ( 1) 香港、菲律宾和墨西哥宏观消费和 GDP 数据未经季节调整。( 2) 英国、美国、法国、意大利、加拿大和日本的 GDP 和消费数据摘自国际货币基金组织数据库(网站: http:/www.imf.org )。菲律宾、墨西哥、韩国和香港的 GDP 和消费数据摘自经合组织数据库(网站: http:/www.oecd.org ) 。消费比率数据是作者自己计算的。( 3) 括号中的特征数不参与比较(这些特征数来自
16、于月度数据,无可比性)。( 4)中国的消费比率值为什么呈一路下滑趋势?主要原因是全国固定资产投资增长率( 2002 年是 13.1% )多年来远远高于消费的增长率( 2002 年是 5.8% ) ,从而导致消费比率 值连年下滑。( 5) 中国目前的宏观消费比率这样低好不好?从长期看不好,应该改变消费与 GDP之间的这种低比例关系。 原因有四。 宏观消费和固定资产投资是维持经济高增长的两个最 重要因素。在经济高增长条件下,消费比率偏低是靠连年的固定资产投资高增长率维持的。而连年的固定资产投资高增长率必然带来人力、 物力和财力的瓶颈现象。 中国近年来之所以没有出现像大跃进时期的物力和财力的瓶颈现象
17、,主要是依靠外国直接投资和借外债支撑的。但长期借外债后,还款将成为一个沉重负担, 同时经济长期超高速发展,高素质人才的缺乏将变得越来越突出。 这些因素制约固定资产投资的超高速增长将随着时间的延长越来越突出。 若没有一个合理的消费比率做支撑, 高投资比率将得不到延续, 最终导致产品相对过剩和积压, 经济发展速度下降。 提高消费比率, 维持消费的高增长同样能带来经济的高增长。 因为提高消费比率主要刺激的是第三产业的发展。 第三产业的发展在促进经济增长的 同时, 还可以扩大劳动力的就业。 为人民政府解决待业问题减轻压力。 目前在这方面还有很大的潜力。 以 2002 年为例, 全国第三产业产值占 GD
18、P 的比例只有 0.34。 以经济建设为中心,不断提高中国人民的物质与精神生活水平是我们党和国家的工作重心, 宏观消费比率长期保持低位不是我们的目的。基于我国 54 年经济发展经验以及目前的经济发展规模,把年消费率平均值控制在0.65-0.70 是比较合理的模式。下面通过建立宏观消费计量经济模型进一步分析我国消费与国民收入的定量关系。 (以下所用数据( 1952-2002)均以不变价格( 1952 = 1 ,单位:亿元人民币)计算。 )用 CPt 表示消费额(不变价格) , GDP t 表示国内生产总值(不变价格) ,用 1952-2002年数据得消费函数的 OLS 估计结果 如下:CPt =
19、 164.0124 + 0.5919 GDP t (2.1)(5.2) (159.9)R2 = 0.998, DW = 0.67, s.e. = 167.45以上模型的 DW 值很小,严格地说模型存在自相关。为消除自相关( = 0.67) ,对变 量进行广义差分。定义GCPt = CPt - 0.665 CP t-1GGDPt = GDP t - 0.665 GDPt-1得估计的回归模型为,GCPt = 45.4845 + 0.5998 GGDP t(1.8) (80.4)R2 = 0.9926, DW = 1.63, s.e. = 131.4上模型中不存在自相关。消费函数的 GLS 估计结果
20、 是CPt = 45.4845 + 0.5998 GDP t (2.2)消费函数的 时间序列模型估计结果 是CPt = 129.0977 + 0.6018 GDP t + 0.7370 u?t(1.28) (54.8) (5.4)21 + v?tR = 0.9988, DW = 1.7, s.e. = 132.3则长期关系是CPt = 129.0977 + 0.6018 GDP t (2.3)综上消费与国内生产总值的真实比值是 0.60。下面研究消费 (不变价格) 对国内生产总值的弹性系数。 对消费和国内生产总值取自然对数并进行 OLS 回归 ,得如下结果,LnCPt = 0.1932 + 0
21、.9256 LnGDP t (2.4)(3.0) (118.8)R2 = 0.9965, DW = 0.77, s.e. = 0.0584对变量进行广义差分。定义GLnCPt = LnCP t - 0.615 LnCPt-1 GLnGDP t = LnGDP t - 0.615 LnGDP t-1得 GLS 估计结果 如下:G LnCPt = 0.0814 + 0.9234 G LnGDP t (2.5)(1.6) (57.6)R2 = 0.9857, DW = 1.34, s.e. = 0.047对残差建立 时间序列模型 ,LnCP t = 0.2103 + 0.9235 LnGDP t +
22、 0.6120(1.6) (57.4) (5.2)u?t1 + v?t(2.6)R2 = 0.9977, DW = 1.34, s.e. = 0.0472综上消费对国内生产总值的真实弹性是 0.92。2.1 一元线性回归模型有一元线性回归模型如下,yt = 0 + 1 xt + ut上 式 表 示 变 量 yt 和 xt 之 间 的 真 实 关 系 。 其 中 yt 称被解释变量(因变量) , xt 称解释变量(自变量) , ut 称 随 机 误 差 项 , 0 称 常 数 项 , 1 称回归系数(通常未知) 。上模型可以分为两部 分 。 ( 1) 回 归 函 数 部 分 , E(yt) =
23、0 + 1 xt,( 2) 随 机 部 分 , ut 。图 2.8 真实的回归直线这种模型可以赋予各种实际意义, 收入与支出的关系; 如脉搏与血压的关系; 商品价格与供给量的关系; 文件容量与保存时间的关系; 林区木材采伐量与木材剩余物的关系; 身高与体重的关系等。以收入与支出的关系为例。 假设固定对一个家庭进行观察, 随着收入水平的不同, 与支出呈线性函数关系。 但实际上数据来自各个家庭, 来自各个不同收入水平, 使其他条件不变成为不可能,所以由数据得到的散点图不在一条直线上(不呈函数关系) ,而是散在直线周围,服从统计关系。随机误差项 ut 中可能包括家庭人口数不同,消费习惯不同,不同地域
24、的消费指数不同, 不同家庭的外来收入不同等因素。 所以在经济问题上 “控制其他因素不变” 实际是不可能的。回归模型的随机误差项中一般包括如下几项内容, ( 1) 非重要解释变量的省略, ( 2) 人的随机行为, ( 3) 数学模型形式欠妥, ( 4) 归并误差(粮食的归并) ( 5) 测量误差等。回归模型存在两个特点。 ( 1) 建立在某些假定条件不变前提下抽象出来的回归函数不能百分之百地再现所研究的经济过程。 ( 2) 也正是由于这些假定与抽象, 才使我们能够透过复杂的经济现象,深刻认识到该经济过程的本质。通常线性回归函数 E(yt) = 0 + 1 xt 是观察不到的,利用样本得到的只是对
25、 E(yt) =0 + 1 xt 的估计,即对 0 和 1 的估计。在对回归函数进行估计之前应该对随机误差项 ut 做出如下假定。(1) ut 是一个随机变量, ut 的取值服从概率分布。(2) E( ut) = 0 。(3) D( ut) = E ut - E( ut) 2 = E(ut)2 = 2。 称 ui 具有同方差性。(4) ut 为正态分布 (根据中心极限定理) 。 以上四个假定可作如下表达: ut N (0, )。(5) Cov( ui, uj ) = E( ui - E( ui) ) ( uj - E( uj) ) = E( ui, uj) = 0, (i j )。 含 义是
26、不 同 观 测 值 所 对+ 11t1 11 和 11 t= 0x )0100 1应的随机项相互独立。称为 ui 的非自相关性。(6) xi 是非随机的。(7) Cov( ui, xi) = E( ui - E( ui) ) ( xi - E( xi) ) = E ui ( xi - E(xi) = E ui xi - ui E(xi) = E( ui xi) = 0. ui 与 xi 相互独立。否则,分不清是谁对 yt 的贡献。(8) 对于多元线性回归模型,解释变量之间不能完全相关或高度相关(非多重共线性) 。在假定( 1) , ( 2)成立条件下有 E(yt) = E( 0 + 1 xt
27、+ ut ) = 0 + 1 xt 。2.2 最小二乘估计( OLS )对于所研究的经济问题, 通常真实的回归直线是观测不到的。 收集样本的目的就是要对这条真实的回归直线做出估计。图 2.9怎样估计这条直线呢?显然综合起来看, 这条直线处于样本数据的中心位置最合理。 怎样用数学语言描述“处于样本数据的中心位置”?设估计的直线用y?t ? ? xt表示。其中 y?t 称 yt 的 拟 合 值 ( fitted value ) , ? 分别是 0 和 1 的估计量。观测值到这条直线的纵向距离用 u?t 表示,称为 残差 。yt = y?t + u?t = ? + ? xt + u?t称为估计的模型
28、。假定样本容量为 T。 ( 1) 用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。 ( 2) 用“残差绝对值和最小”确定直线位置 也是一个途径。但绝对值的计算比较麻烦。 ( 3) 最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较方便外,得到的估计量还具有优良特性。 (这种方法对异常值非常敏感)设残差平方和用 Q 表示,TQ = u? 2 =i 1T( yti 1y?t) 2 =T( yti 1? ? 20 1 t则通过 Q 最小确定这条直线, 即确定 ? ? 的估计值。 以 ? ? 为变量, 把 Q 看作是 ?和 ? 的函数,这是
29、一个求极值的问题。求 Q 对 ? ? 的偏导数并令其为零,得正规方程,Q = 2?0T( yti 1?0 ? xt) (-1) = 0 (2.7)Q = 2?1T( yti 1? ? x ) (- xt) = 0 (2.8)下面用代数和矩阵两种形式推导计算结果。首先用代数形式推导。由( 2.7) 、 ( 2.8)式和和 和0,0 0 0x=和 1111y x0 110得,T( yti 1?0 ?1 xt ) = 0 (2.9)T( yti 1? ?0 1 t ) xt = 0 (2.10)( 2.9) 式两侧用除 T, 并整理得,? ? (2.11)把( 2.11)式代入( 2.10)式并整理
30、,得,T ( y t y) ? ( x x ) xt = 0 (2.12)1 ti 1T( yti 1y) xtT? ( xti 1x) xt= 0 (2.13)? xt ( yt1( xty ) x ) xt(2.14)T因为 x ( yt y ) = 0,i 1Tx( xt x ) = 0, 分 别 在 ( 8) 式的分子和分母上减i 1Tx( yt y ) 和i 1Tx( xt x ) 得 ,i 1?1xt ( yt( xty) x ) xtx ( yt y)x (xt x ) (2.15)( xt x)( yt y)= 2 (2.16)( xt x)2.3 最小二乘估计量 ? ? 的特
31、性(1) 线性特性这里指 ? ? 分别是 yt 的线性函数。? = kt yt可见 ? 是 yt 的线性函数,是 1 的线性估计量。同理 0 也具有线性特性。=和01(2) 无偏性E( ? ) = 11111t11 0=(3) 有效性0, 1 的 OLS 估计量的方差比其他估计量的方差小。Gauss-Marcov 定理:若 ut 满足 E(ut) = 0 , D( ut) = 2, 那么用 OLS 法得到的估计量就 具有最佳线性无偏性。 估计量称最佳线性无偏估计量。最佳线性无偏估计特性保证估计值最 大限度的集中在真值周围,估计值的置信区间最小。注意:分清 4 个式子的关系。(1) 真实的统计模
32、型, yt = 0 + 1 xt + ut(2) 估计的统计模型, yt = ?0 + ?1 xt + u?t(3) 真实的回归直线, E(yt) = 0 + 1 xt(4) 估计的回归直线, y?t = ? ? xt2.4 OLS 回归直线的性质(1) 残 差 和 等 于 零 , u?t = 0(2) 估 计 的 回 归 直 线 y?t ? ? xt 过( x , y )点。(3) yt 的拟合值的平均数等于其样本观测值的平均数, y?t = y 。2.5 yt 的 分 布和? 的分布yt N ( 0 + 1 xt, )。? N ( 1, 1 2 )。( xt x)2.6 的 估 计定义?2 = ( u? 2 ) (T 2)其中 2 表示待估参数的个数。可以证明 E( ?2 ) = 。 ?2 是 的无偏估计量。因为 u?t 是残差,所以 ?2 又称作误差均方。可用来考察观测值对回归直线的离散程度。? 的估计的方差是Var ( ? ) =1( x x) 2 ?2 , Var (? ) =T2t ?2(x x)2t t2.7 拟合优度的测量拟合优度是指回归直线对观测值的拟合程度。 显然若观测值离回归直线近, 则拟合程度好;反之则拟合程度差。+00x