1、1面板数据模型1面板数据定义。时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。面板数据(panel data)也称时间序列截面数据(time series and cross section data)或混合数据(pool data) 。面板数据是同时在时间和截面空间上取得的二维数据。面板数据示意图见图 1。面板数据从横截面(cross section)上看,是由若干个体(entity, unit, individual)在某一时刻构成的截面观测值,从纵剖面(longitudinal section)上看是一个时间序列。面板数据用双
2、下标变量表示。例如yi t, i = 1, 2, , N; t = 1, 2, , TN 表示面板数据中含有 N 个个体。T表示时间序列的最大长度。若固定 t不变,y i ., ( i = 1, 2, , N)是横截面上的 N 个随机变量;若固定 i 不变,y . t, (t = 1, 2, , T)是纵剖面上的 一 个时间序列(个体) 。图 1 N=7,T=50 的面板数据示意图例如 1990-2000 年 30 个省份的农业总产值数据。固定在某一年份上,它是由 30 个农业总产总值数字组成的截面数据;固定在某一省份上,它是由 11 年农业总产值数据组成的 一 个时间序列。面板数据由 30
3、个个体组成。共有 330 个观测值。对于面板数据 yi t, i = 1, 2, , N; t = 1, 2, , T 来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data ) 。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data) 。注意:EViwes 3.1、4.1、5.0 既允许用平衡面板数据也允许用非平衡面板数据估计模型。例 1(file:panel02):1996-2002 年中国东北、华北、华东 15 个省级地区的居民家庭人均消费(不变
4、价格)和人均收入数据见表 1 和表 2。数据是 7 年的,每一年都有 15个数据,共 105 组观测值。人均消费和收入两个面板数据都是平衡面板数据,各有 15 个个体。人均消费和收入的面板数据从纵剖面观察分别见图 2 和图 3。从横截面观察分别见图 4 和图 5。横截面数据散点图的表现与观测值顺序有关。图 4 和图 5 中人均消费和收入观测值顺序是按地区名的汉语拼音字母顺序排序的。表 1 1999-2002 年中国东北、华北、华东 15 个省级地区的居民家庭人均消费数据(不变价格)资料来源:中国统计年鉴1997-2003 。表 2 1999-2002 年中国东北、华北、华东 15 个省级地区的
5、居民家庭人均收入数据(不变价格)资料来源:中国统计年鉴1997-2003 。地区人均消费 1996 1997 1998 1999 2000 2001 2002CP-AH( 安徽) 3282.466 3646.150 3777.410 3989.581 4203.555 4495.174 4784.364CP-BJ(北京) 5133.978 6203.048 6807.451 7453.757 8206.271 8654.433 10473.12CP-FJ(福建) 4011.775 4853.441 5197.041 5314.521 5522.762 6094.336 6665.005CP-H
6、B(河北) 3197.339 3868.319 3896.778 4104.281 4361.555 4457.463 5120.485CP-HLJ( 黑龙江 ) 2904.687 3077.989 3289.990 3596.839 3890.580 4159.087 4493.535CP-JL( 吉林) 2833.321 3286.432 3477.560 3736.408 4077.961 4281.560 4998.874CP-JS(江苏) 3712.260 4457.788 4918.944 5076.910 5317.862 5488.829 6091.331CP-JX(江西) 2
7、714.124 3136.873 3234.465 3531.775 3612.722 3914.080 4544.775CP-LN(辽宁) 3237.275 3608.060 3918.167 4046.582 4360.420 4654.420 5402.063CP-NMG(内蒙古) 2572.342 2901.722 3127.633 3475.942 3877.345 4170.596 4850.180CP-SD( 山东) 3440.684 3930.574 4168.974 4546.878 5011.976 5159.538 5635.770CP-SH( 上海) 6193.333
8、6634.183 6866.410 8125.803 8651.893 9336.100 10411.94CP-SX( 山西) 2813.336 3131.629 3314.097 3507.008 3793.908 4131.273 4787.561CP-TJ( 天津) 4293.220 5047.672 5498.503 5916.613 6145.622 6904.368 7220.843CP-ZJ( 浙江) 5342.234 6002.082 6236.640 6600.749 6950.713 7968.327 8792.210地区人均收入 1996 1997 1998 1999 2
9、000 2001 2002IP-AH(安徽) 4106.251 4540.247 4770.470 5178.528 5256.753 5640.597 6093.333IP-BJ(北京 ) 6569.901 7419.905 8273.418 9127.992 9999.700 11229.66 12692.38IP-FJ(福建) 4884.731 6040.944 6505.145 6922.109 7279.393 8422.573 9235.538IP-HB(河北) 4148.282 4790.986 5167.317 5468.940 5678.195 5955.045 6747.1
10、52IP-HLJ(黑龙江) 3518.497 3918.314 4251.494 4747.045 4997.843 5382.808 6143.565IP-JL(吉林) 3549.935 4041.061 4240.565 4571.439 4878.296 5271.925 6291.618IP-JS(江苏) 4744.547 5668.830 6054.175 6624.316 6793.437 7316.567 8243.589IP-JX(江西) 3487.269 3991.490 4209.327 4787.606 5088.315 5533.688 6329.311IP-LN(辽宁
11、) 3899.194 4382.250 4649.789 4968.164 5363.153 5797.010 6597.088IP-NMG(内蒙古) 3189.414 3774.804 4383.706 4780.090 5063.228 5502.873 6038.922IP-SD(山东 ) 4461.934 5049.407 5412.555 5849.909 6477.016 6975.521 7668.036IP-SH(上海 ) 7489.451 8209.037 8773.100 10770.09 11432.20 12883.46 13183.88IP-SX(山西 ) 3431.
12、594 3869.952 4156.927 4360.050 4546.785 5401.854 6335.732IP-TJ(天津) 5474.963 6409.690 7146.271 7734.914 8173.193 8852.470 9375.060IP-ZJ(浙江) 6446.515 7158.288 7860.341 8530.314 9187.287 10485.64 11822.002200300400500600700800900100100196197198199200201202CPAHCPBJCPFJCPHBCPHLJ CPJLCPJSCPJXCPLNCPNMG CPS
13、DCPSHCPSXCPTJCPZJ20040060080010012001400196197198199200201202IPAHIPBJIPFJIPHBIPHLJ IPJLIPJSIPJXIPLNIPNMG IPSDIPSHIPSXIPTJIPZJ图 2 15 个省级地区的人均消费序列(纵剖面) 图 3 15 个省级地区的人均收入序列(file:4panel02 )20406080101201402468101214CP1978CP9201CP0220406080101201402468101214IP197I8IP920I1IP0图 4 15 个省级地区的人均消费散点图 图 5 15 个省
14、级地区的人均收入散点图(7 个横截面叠加)(每条连线表示同一年度 15 个地区的消费值) (每条连线表示同一年度 15 个地区的收入值)用 CP 表示消费,IP 表示收入。AH, BJ, FJ, HB, HLJ, JL, JS, JX, LN, NMG, SD, SH, SX, TJ, ZJ 分别表示安徽省、北京市、福建省、河北省、黑龙江省、吉林省、江苏省、江西省、辽宁省、内蒙古自治区、山东省、上海市、山西省、天津市、浙江省。15 个地区 7 年人均消费对收入的面板数据散点图见图6 和图 7。图 6 中每一种符号代表一个省级地区的 7 个观测点组成的时间序列。相当于观察 15 个时间序列。图
15、7 中每一种符号代表一个年度的截面散点图(共 7 个截面) 。相当于观察 7 个截面散点图的叠加。2003004005006007008009001001000 400 80012001600IP(196-202)CPAHBJCPFJHBCPLJJLCPJSJXCPLNMGCPSDHCPSXTJCPZJ图 6 用 15 个时间序列表示的人均消费对收入的面板数据2040608010120040608010120140IP(96-)CP1967819CP20图 7 用 7 个截面表示的人均消费对收入的面板数据(7 个截面叠加)3为了观察得更清楚一些,图 8 给出北京和内蒙古 1996-2002 年
16、消费对收入散点图。从图中可以看出,无论是从收入还是从消费看内蒙古的水平都低于北京市。内蒙古 2002年的收入与消费规模还不如北京市 1996 年的大。图 9 给出该 15 个省级地区 1996 和 2002 年的消费对收入散点图。可见 6 年之后 15 个地区的消费和收入都有了相应的提高。图 8 北京和内蒙古 1996-2002 年消费对收入时序图 图 9 1996 和2002 年 15 个地区的消费对收入散点图2面板数据的估计。用面板数据建立的模型通常有 3 种。即混合估计模型、固定效应模型和随机效应模型。2.1 混合估计模型。如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截
17、面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。如果从时间和截面看模型截距都不为零,且是一个相同的常数,以二变量模型为例,则建立如下模型,yit = +1 xit +it, i = 1, 2, , N; t = 1, 2, , T (1) 和 1 不随 i,t 变化。称模型 (1)为混合估计模型。以例 1 中 15 个地区 1996 和 2002 年数据建立关于消费的混合估计模型,得结果如下:图 10 EViwes 估计方法:在打开工作文件窗口的基础上,点击主功能菜单中的 Objects 键,选 New Object 功能,从而打开 New Ob
18、ject(新对象)选择窗。在 Type of Object 选择区选择 Pool(混合数据库) ,点击 OK 键,从而打开 Pool(混合数据)窗口。在窗口中输入 15 个地区标识 AH(安徽)、BJ(北京)、 、ZJ(浙江) 。工具栏中点击 Sheet 键,从而打开 Series List(列写序列名)窗口,定义变量 CP?和 IP?,点击 OK 键,Pool (混合或合并数据库)窗口显示面板数据。在 Pool 窗口的工具栏中点击 Estimate 键,打开 Pooled Estimation(混合估计)窗口如下图。图 11在 Dependent Variable(相依变量)选择窗填入 CP
19、?;在 Common coefficients(系数相同)选择窗填入 IP?;Cross section specific coefficients(截面系数不同)选择窗保持空白;在 Intercept(截距项)选择窗点击 Common;在Weighting(权数)选择窗点击 No weighting。点击 Pooled Estimation(混合估计)窗口中的 OK 键。得输出结果如图10。相应表达式是4= 129.6313 +0.7587 IPit itCP(2.0) (79.7) R2 = 0.98, SSEr = 4824588, t0.05 (103) = 1.9915 个省级地区的
20、人均支出平均占收入的 76%。如果从时间和截面上看模型截距都为零,就可以建立不含截距项的( = 0)的混合估计模型。以二变量模型为例,建立混合估计模型如下,yit = 1 xit +it, i = 1, 2, , N; t = 1, 2, , T (2)对于本例,因为上式中的截距项有显著性(t = 2.0 t0.05 (103) = 1.99) ,所以建立截距项为零的混合估计模型是不合适的。EViwes 估计方法:在 Pooled Estimation(混合估计)对话框中 Intercept(截距项)选择窗中选 None,其余选项同上。2.2 固定效应模型。在面板数据散点图中,如果对于不同的截
21、面或不同的时间序列,模型的截距是不同的,则可以采用在模型中加虚拟变量的方法估计回归参数,称此种模型为固定效应模型(fixed effects regression model) 。固定效应模型分为 3 种类型,即个体固定效应模型(entity fixed effects regression model) 、时刻固定效应模型(time fixed effects regression model)和时刻个体固定效应模型(time and entity fixed effects regression model) 。下面分别介绍。(1)个体固定效应模型。个体固定效应模型就是对于不同的个体有不同
22、截距的模型。如果对于不同的时间序列(个体)截距是不同的,但是对于不同的横截面,模型的截距没有显著性变化,那么就应该建立个体固定效应模型,表示如下,yit = 1 xit +1 W1 + 2 W2 + +N WN +it, t = 1, 2, , T (3)其中Wi = 其 他个 个 体如 果 属 于 第 。,,0,.1iiit, i = 1, 2, , N; t = 1, 2, , T,表示随机误差项。y it, xit, i = 1, 2, , N; t = 1, 2, , T 分别表示被解释变量和解释变量。模型(3)或者表示为y1t = 1 +1 x1t +1t, i = 1(对于第 1
23、个个体,或时间序列) ,t = 1, 2, , Ty2t = 2 +1 x2t +2 t, i = 2(对于第 2 个个体,或时间序列) ,t = 1, 2, , T yN t = N +1 xN t + N t, i = N(对于第 N 个个体,或时间序列) ,t = 1, 2, , T写成矩阵形式,y1 = (1 x1) +1 = 1 + x1 +1yN = (1 xN) +N = N + xN +N上式中 yi, i, i,x i 都是 N1 阶列向量。 为标量。当模型中含有 k 个解释变量时, 为 k1 阶列向量。进一步写成矩阵形式,= + 121Ny N10 121Nx21+ 121
24、N上式中的元素 1,0 都是 T1 阶列向量。面板数据模型用 OLS 方法估计时应满足如下 5 个假定条件:(1)E( it|xi1, xi2, , xiT, i) = 0。以 xi1, xi2, , xiT, i 为条件的 it 的期望等于零。(2)(x i1, xi2, , xiT), ( yi1, yi2, , yiT), i = 1, 2, , N 分别来自于同一个联合分布总体,并相互独立。(3)(x it, it)具有非零的有限值 4 阶矩。(4)解释变量之间不存在完全共线性。(5)Cov( it is|xit,xis, i) = 0, t s。在固定效应模型中随机误差项 it 在时
25、间上是非自相关的。其中 xit 代表一个或多个解释变量。对模型(1)进行 OLS 估计,全部参数估计量都是无偏的和一致的。模型的自由度是 N T 1N。当模型含有 k 个解释变量,且 N 很大,相对较小时,因为模型中含有 k + N 个被估参数,一般软件执行 OLS 运算很困难。在计量经济学软件中是采用一种特殊处理方式进行 OLS 估计。估计原理是,先用每个变量减其组内均值,把数据中心化(entity-demeaned) ,然后用变换的数据先估计个体固定效应模型的回归系数(不包括截距项) ,然后利用组内均值等式计算截距项。这种方法计算起来速度快。具体分 3步如下。(1)首先把变量中心化(ent
26、ity-demeaned) 。仍以单解释变量模型(3)为例,则有= i + 1 + , i = 1, 2, , N iyix(4)5其中 = , = , = , i = 1, 2, iyTtit1ixTti1iTti1, N。公式(1)、(4)相减得,(yit - ) = 1(xit - ) + (it - ) i i i(5)令(y it - ) = ,(x it - ) = ,( it - ) = ,上式写为iitiitiit= 1 + ity itx(6)用 OLS 法估计(1) 、 (6)式中的 1,结果是一样的,但是用(6)式估计,可以减少被估参数个数。(2)用 OLS 法估计回归参
27、数(不包括截距项,即固定效应) 。在 k 个解释变量条件下,把 用向量形式 表示,则itxX利用中心化数据,按 OLS 法估计公式计算个体固定效应模型中回归参数估计量的方差协方差矩阵估计式如下,( ) = ( )-1 Var 2(7)其中 = , 是相对于 的残差向量。2k(3)计算回归模型截距项,即固定效应参数 i。= - iYiX(8)以例 1(file:panel02)为例得到的个体固定效应模型估计结果如下:注意:个体固定效应模型的 EViwes 输出结果中没有公共截距项。图 12EViwes 估计方法:在 EViwes 的 Pooled Estimation 对话框中 Intercep
28、t 选项中选 Fixed effects。其余选项同上。注意:(1)EViwes 输出结果中没有给出描述个体效应的截距项相应的标准差和 t 值。不认为截距项是模型中的重要参数。(2)当对个体固定效应模型选择加权估计时,输出结果将给出加权估计和非加权估计两种统计量评价结果。(3)点击 View 选 Residuals/Table, Graphs, Covariance Matrix, Correlation Matrix 功能可以分别得到按个体计算的残差序列表,残差序列图,残差序列的方差协方差矩阵,残差序列的相关系数矩阵。从结果看,北京、上海、浙江是消费函数截距(自发消费)最大的 3 个地区。相
29、对于混合估计模型来说,是否有必要建立个体固定效应模型可以通过 F 检验来完成。原假设 H0:不同个体的模型截距项相同(建立混合估计模型) 。备择假设 H1:不同个体的模型截距项不同(建立个体固定效应模型) 。F 统计量定义为:F= =)1/()(2)( NTSEur(9)1/(/NTSEur其中 SSEr,SSE u 分别表示约束模型(混合估计模型)和非约束模型(个体固定效应模型)的残差平方和。非约束模型比约束模型多了 N-1 个被估参数。 (混合估计模型给出公共截距项。 )注意:当模型中含有 k 个解释变量时,F 统计量的分母自由度是 NT-N-k。用上例计算,已知 SSEr = 48245
30、88,SSE u = 2270386,F= =)1/(/TSEur= = 7.15)510/(2738645(250843F0.05(14, 89) = 1.81因为 F= 7.15 F0.05(14, 89) = 1.81,所以,拒绝原假设。结论是应该建立个体固定效应模型。6(2)随机效应模型在固定效应模型中采用虚拟变量的原因是解释被解释变量的信息不够完整。也可以通过对误差项的分解来描述这种信息的缺失。yit = + 1 xit + it (14)其中误差项在时间上和截面上都是相关的,用 3 个分量表示如下。it = ui + vt + wit (15)其中 ui N(0, u2)表示截面随
31、机误差分量;v t N(0, v2)表示时间随机误差分量;w it N(0, w2)表示混和随机误差分量。同时还假定 ui,v t,w it 之间互不相关,各自分别不存在截面自相关、时间自相关和混和自相关。上述模型称为随机效应模型。随机效应模型和固定效应模型比较,相当于把固定效应模型中的截距项看成两个随机变量。一个是截面随机误差项(u i) ,一个是时间随机误差项(v t) 。如果这两个随机误差项都服从正态分布,对模型估计时就能够节省自由度,因为此条件下只需要估计两个随机误差项的均值和方差。假定固定效应模型中的截距项包括了截面随机误差项和时间随机误差项的平均效应,而且对均值的离差分别是ui 和
32、 vt,固定效应模型就变成了随机效应模型。为了容易理解,先假定模型中只存在截面随机误差项ui,不存在时间随机误差分量( vt) ,yit = + 1 xit + (wit+ ui) = + 1 xit +it (16)截面随机误差项 ui 是属于第个个体的随机波动分量,并在整个时间范围(t = 1,2, , T)保持不变。随机误差项 ui, wit 应满足如下条件:E(ui) =0, E(wit) = 0E(wit 2) = w2, E(ui 2)= u2,E(wit uj) =0, 包括所有的 i, t, j。E(wit wjs) =0, i j, t sE(ui uj) =0, i j因为
33、根据上式有it = wit+ ui所以这种随机效应模型又称为误差分量模型(error component model) 。有结论,E(it ) = E(wit +uj) = 0,(16)式,y it = + 1 xit + (wit+ ui),也可以写成 yit = ( + ui) + 1 xit + wit。服从正态分布的截距项的均值效应 u 被包含在回归函数的常数项中。E(it 2) = E(wit +uj)2 = w2 +u2,E(it is) = E(wit+ ui)(wis+ ui) = E(wit wis + ui wis + wit ui + ui2) =u2, t s 令i =
34、 (i1, i2, iT)则 = E(ii) = )()()( 222 222 uwuuwuuuw =w2 I(TT) +u2 1(T1) 1(T1) 其中 I(TT)是(TT )阶单位阵,1 (T1)是(T1) 阶列向量。因为第i 期与 j 期观测值是相互独立的,所以 NT 个观测值所对应的随机误差项的方差与协方差矩阵 V 是V = = = 0101 INN 其中 INN 表示由(T1)阶列向量为元素构成的单位阵,其中每一个元素 1 或 0 都是(T 1)阶列向量。表示科罗内克积(Kronecker product) 。其运算规则是ANKB = BNKNaa 2122112检验个体随机效应的
35、原假设与检验统计量是H0: u2 = 0。 (混合估计模型)H1: u2 0。 (个体随机效应模型)LM= =)1(2TN212iTtiitiu)1(TN212NiTtiiiu= )1(2T221u其中 表示由个体随机效应模型计算的残差平方和。u表示由混合估计模型计算的残差平方和。统计量 LM 服从 1 个自由度的 2 分布。可以对随机效应模型进行广义最小二乘估计。以观测7值方差的倒数为权。为了求权数,必须采用两阶段最小二乘法估计。因为各随机误差分量的方差一般是未知的,第一阶段用普通最小二乘估计法对混合数据进行估计(采用固定效应模型) 。用估计的残差计算随机误差分量的方差。第二步用这些估计的方
36、差计算参数的广义最小二乘估计值。如果随机误差分量服从的是正态分布,模型的参数还可以用极大似然法估计。仍以例 1 为例给出随机效应模型估计结果如下:图 15注意:随机效应模型 EViwes 输出结果中含有公共截距项。图 16以例 1 为例,用个体随机效应模型和混合模型计算的统计量的值是LM = =)1(2TN221u675=8.75(24.4)2 = 52092214850637F0.05 (1) = 3.84因为 F= 5209 F0.05 (1) = 3.84,所以拒绝原假设,结论是应该建立个体随机效应模型。假定截面截距和时间截距都是随机的。分别服从均值为 u 和 v,方差为 u2 和 v2
37、 的正态分布。随机误差项将由 3部分组成,并有方差。Var(it) = Var(ui) + Var(vt) + Var(wit) =u2 +v2+w2当 u2 和 v 2 都等于零,随机效应模型退化为固定效应模型。随机效应模型和固定效应模型哪一个更好些?实际是各有优缺点。随机效应模型的好处是节省自由度。对于从时间序列和截面两方面上看都存在较大变化的数据,随机效应模型能明确地描述出误差来源的特征。固定效应模型的好处是很容易分析任意截面数据所对应的因变量与全部截面数据对应的因变量均值的差异程度。此外,固定效应模型不要求误差项中的个体效应分量与模型中的解释变量不相关。当然,这一假定不成立时,可能会引起模型参数估计的不一致性。