1、1虚拟变量(dummy variable)在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为 1 或 0。这种变量称作虚拟变量,用 D 表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。1截距移动设有模型,yt = 0 + 1 xt + 2D + ut ,其中 yt,x t 为定量变量;D 为定性变量。当 D = 0 或 1 时,上述模型可表达为,0 + 1xt + ut , (D
2、 = 0) yt = (0 + 2) + 1xt + ut , (D = 1) 020406204060XY图 8.1 测量截距不同D = 1 或 0 表示某种特征的有无。反映在数学上是截距不同的两个函数。若 2 显著不为零,说明截距不同;若 2 为零,说明这种分类无显著性差异。例:中国成年人体重 y(kg)与身高 x(cm)的回归关系如下:105 + x D = 1 (男 )y = - 100 + x - 5D = 100 + x D = 0 (女)注意: 若定性变量含有 m 个类别,应引入 m-1 个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummy variable trap)
3、 。 关于定性变量中的哪个类别取 0,哪个类别取 1,是任意的,不影响检验结果。 定性变量中取值为 0 所对应的类别称作基础类别(base category) 。 对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如:1 (大学 )D = 0 (中学)-1 (小学)。0 0+2 D = 1 D =0 2【案例 1】 中国季节 GDP 数据的拟合(虚拟变量应用,file:case1 及 case1-solve)1.21.62.02.42.896:397:1:398:1:39:19:30:10:3GDP 1.01.52.02.53.0510152025TGDPGDP
4、 序列图 不用虚拟变量的情形若不采用虚拟变量,得回归结果如下,GDP = 1.5427 + 0.0405 T(11.0) (3.5) R2 = 0.3991, DW = 2.6, s.e. = 0.3定义1 (1 季度) 1 (2 季度) 1 (3 季度) D1 = D2 = D3 =0 (2, 3,4 季度) 0 (1, 3, 4 季度) 0 (1, 2, 4 季度)第 4 季度为基础类别。GDP = 2.0922 + 0.0315 T 0.8013 D1 0.5137 D2 0.5014 D3(64.2) (15.9) (-24.9) (-16.1) (-15.8) R2 = 0.9863
5、, DW = 1.96, s.e. = 0.053附数据如下:年 GDP t D1 D2 D31996:1 1.3156 1 1 0 01996:2 1.6600 2 0 1 01996:3 1.5919 3 0 0 11996:4 2.22096 4 0 0 01997:1 1.46856 5 1 0 01997:2 1.84948 6 0 1 01997:3 1.7972 7 0 0 11997:4 2.3620 8 0 0 01998:1 1.58994 9 1 0 01998:2 1.88316 10 0 1 01998:3 1.97044 11 0 0 11998:4 2.51176
6、 12 0 0 01999:1 1.6784 13 1 0 01999:2 1.9405 14 0 1 01999:3 2.0611 15 0 0 11999:4 2.5254 16 0 0 02000:1 1.8173 17 1 0 02000:2 2.1318 18 0 1 02000:3 2.2633 19 0 0 12000:4 2.7280 20 0 0 0数据来源:中国统计年鉴1998-20012斜率变化以上只考虑定性变量影响截距,未考虑影响斜率,即回归系数的变化。当需要考虑时,可建立如下模型:yt = 0 + 1 xt + 2 D + 3 xt D + ut ,其中 xt 为定量
7、变量;D 为定性变量。当 D = 0 或 1 时,上述模型可表达为,(0 + 2 ) + (1 + 3)xt + ut , (D = 1) yt = 0 + 1 xt + ut , (D = 0) 通过检验 3 是否为零,可判断模型斜率是否发生变化。02040608010204060XY 102304506700204060TY图 8.5 情形 1(不同类别数据的截距和斜率不同) 图 8.6 情形 2(不同类别数据的截距和斜率不同)例 2:用虚拟变量区别不同历史时期(file: case2 及 case2-solve)中国进出口贸易总额数据(1950-1984 )见上表。试检验改革前后该时间序
8、列的斜率是否发生变化。定义虚拟变量 D 如下0 (1950 - 1977)D = 1 (1978 - 1984 )4中国进出口贸易总额数据(1950-1984 ) (单位:百亿元人民币)年 trade T D T *D 年 trade T D T*D1950 0.415 1 0 0 1968 1.085 19 0 01951 0.595 2 0 0 1969 1.069 20 0 01952 0.646 3 0 0 1970 1.129 21 0 01953 0.809 4 0 0 1971 1.209 22 0 01954 0.847 5 0 0 1972 1.469 23 0 01955
9、1.098 6 0 0 1973 2.205 24 0 01956 1.087 7 0 0 1974 2.923 25 0 01957 1.045 8 0 0 1975 2.904 26 0 01958 1.287 9 0 0 1976 2.641 27 0 01959 1.493 10 0 0 1977 2.725 28 0 01960 1.284 11 0 0 1978 3.550 29 1 291961 0.908 12 0 0 1979 4.546 30 1 301962 0.809 13 0 0 1980 5.638 31 1 311963 0.857 14 0 0 1981 7.3
10、53 32 1 321964 0.975 15 0 0 1982 7.713 33 1 331965 1.184 16 0 0 1983 8.601 34 1 341966 1.271 17 0 0 1984 12.010 35 1 351967 1.122 18 0 0以时间 T=time 为解释变量,进出口贸易总额用 trade 表示,估计结果如下:trade = 0.37 + 0.066 time - 33.96D + 1.20 time D(1.86) (5.53) (-10.98) (12.42)0.37 + 0.066 time (D = 0, 1950 - 1977) = - 3
11、3.59 + 1.27 time (D = 1, 1978 - 1984) 上式说明,改革前后无论截距和斜率都发生了变化。进出口贸易总额的年平均增长量扩大了 18 倍。【案例 3】香港季节 GDP 数据(单位:千亿港元)的拟合(file: case3 及 case3-solve)1.01.52.02.53.03.54.091923945967980102GDP1.01.52.02.53.03.54.091923945967980102GDP1.6952+0.37*T519901997 年香港季度 GDP 呈线性增长。1997 年由于遭受东南亚金融危机的影响,经济发展处于停滞状态,1998200
12、2 年底 GDP 总量几乎没有增长(见上图) 。对这样一种先增长后停滞,且含有季节性周期变化的过程简单地用一条直线去拟合显然是不恰当的。为区别不同季节,和不同时期,定义季节虚拟变量 D2、 D3、D4 和区别不同时期的虚拟变量 DT 如下(数据见附录):1 (第 2 季度)D2 = 0 (其他季度)1 (第 3 季度)D3 = 0 (其他季度)1 (第 4 季度)D4 = 0 (其他季度)1 (1998:12002:4)DT = 0 (1990:1 1997:4)得估计结果如下:GDPt = 1.1573 + 0.0668 t + 0.0775 D2 + 0.2098 D3 + 0.2349
13、D4+ 1.8338 DT - 0.0654 DT t(50.8) (64.6) (3.7) (9.9) (11.0) (19.9) (-28.0)R2 = 0.99, DW = 0.9, s.e. = 0.05, F=1198.4, T=52, t0.05 (52-7) = 2.01对于 1990:1 1997:4GDPt = 1.1573 + 0.0668 t + 0.0775 D2 + 0.2098 D3 + 0.2349 D4对于 1998:12002:4GDPt = 2.9911 + 0.0014 t + 0.0775 D2 + 0.2098 D3 + 0.2349 D46如果不采用
14、虚拟变量拟合效果将很差:GDPt = 1.6952 + 0.0377 t(20.6) (13.9) R2 = 0.80, DW = 0.3, T=52, t0.05 (52-2) = 2.01【案例 4】 天津市粮食市场小麦批发价与面粉零售价的关系研究(file: xiezhiyong )首先看天津市粮食市场小麦批发价格的变化情况(图 1) 。1995 年初,天津市粮食市场的小麦批发价格首先放开。在经历 5 个月的上扬之后,进入平稳波动期。从 1996 年 8 月份开始小麦批发价格一路走低。至 2002 年 12 月份,小麦批发价格降至是 1160 元/吨。其次看面粉零售价的变化情况。因为面粉
15、零售价格直接关系到居民的日常生活,所以开始时没有与小麦批发价格一起放开。当小麦批发价格一路看涨时,1995 年 1 月至 1996年 6 月面粉零售价格一直处于 2.14 元/千克的水平上。1996 年 7 月起,面粉零售价格也开始在市场上放开。受小麦批发价格上涨的影响,一个月内面粉零售价格从 2.14 元/千克涨到2.74 元/千克。在这个价位上坚持了 11 个月之后,面粉零售价格开始下降。与小麦批发价格的下降相一致,在经历了 5 年零 7 个月的变化之后,面粉零售价格又恢复到接近开放前2.14 元/千克的水平上(2.17 元) 。散点图如图 2。按时间分析这些观测点的变化情况(见图 3,逆
16、时针方向运动) 。见图4,直接拟合这些数据效果将很差(R 2 = 0.027, r = 0.17) 。2.02.2.42.62.8 1021406180295969798900102retail pricewholesal2.02.2.42.62.8112014016018020wholesalretail price图 1 图 22.02.2.42.62.8112014016018020wholesalretail price2.02.2.42.62.8112014016018020wholesalretail price图 3 图 4利用虚拟变量技术,在模型中加入虚拟变量。定义D = 0,
17、 (1995: 11996:6 ,面粉零售价格放开之前) , D = 1, (1996:72002:12 ,面粉零售价格放开之后) 。取对数关系建立模型。7Lnsale 的系数没有显著性(对于面粉零售价格放开之前的散点来说回归直线是一条水平线) 。剔出 Lnsale 变量,得估计结果PRICE = 2.140 + 1.1215 LnsaleD 7.7458D(131.5) (23.9) (-23.0) R2 = 0.9054,PRICE = 2.140, D=0PRICE = 5.6058 + 1.1215 Lnsale, D=1一条回归直线的斜率为零,一条回归直线的斜率为 1.12。可决系数从不加虚拟变量模型的0.046 增加到 0.905(输出结果见下) 。本例也可以建立倒数模型:82.02.2.42.62.840.50.60.70.80.90.101/SALEPRICEPRICE = 2.140 + 1.5141D 1565.9 (1/sale) D(145.9) (32.1) (-27.0) R2 = 0.9231,PRICE = 2.140, D=0PRICE = 3.6541 1565.9 (1/sale), D=1