1、第七章:回归分析的其它问题,第一节 虚拟变量第二节 设定误差第三节 滞后变量模型介绍第四节 随机解释变量第五节 时间序列模型初步,第一节 虚拟变量,一、虚拟变量及其作用1.定义:取值为0和1的人工变量,表示非量化(定性)因素对模型的影响,一般用符号D表示。例如:政策因素、地区因素、心理因素、季节因素等。2.作用:描述和测量定性因素的影响;正确反映经济变量之间的相互关系,提高模型的精度;便于处理异常数据。,二、虚拟变量的设置原则,引入虚拟变量一般取0和1。对定性因素一般取级别数减1个虚拟变量。例子1:性别因素,二个级别(男、女)取一个虚拟变量,D=1表示男(女),D=0表示女(男)。例子2:季度
2、因素,四个季度取3个变量。小心“虚拟变量陷阱”!,三、虚拟变量的应用,1、在常数项引入虚拟变量,改变截距。对上式作OLS,得到参数估计值和回归模型:(7.1.2)相当于两个回归模型:,2、在斜率处引入虚拟变量,改变斜率。作OLS后得到参数估计值,回归模型为:同样可以写成二个模型:可考虑同时在截距和斜率引入虚拟变量:,3、虚拟变量用于季节性因素分析。取原模型若为则引入虚拟变量后的模型为:回归模型可视为:,例题:美国制造业的利润销售额行为,模型:利用19651970年六年的季度数据,得结果:括号内为t统计值。显然,三季度和四季度与一季度差异并不明显,重新回归,仅考虑二季度,有结果:,4、引用虚拟变
3、量处理“时间拐点”问题。常见的情况:a. 若T0为两个时间段之间的某个拐点,虚拟变量为:b. 用虚拟变量表示某个特殊时期的影响;模型中虚拟变量可放在截距项或斜率处。,5、分阶段计酬问题。若工作报酬与业务量挂钩,且不同业务量提成比例不一样(递增),设S1、S2为二个指标临界点 工资模型为:,作OLS得到参数估计值后,三个阶段的报酬回归模型为:,例子:佣金与销售额的关系:,模型:样本回归函数:,第二节 设定误差,一、设定误差的定义:计量经济模型在建立模型时发生变量选择或其它错误,导致OLS结果可能有问题。二、设定误差的类型及后果一般的设定误差包括:1、多设无必要的解释变量;2、漏设重要的解释变量;
4、3、引入错误的解释变量;4、错误的函数形式; 5、样本数据发生偏差。具体形式及后果见下页。,假设一正确模型为:1、多设变量后,模型为: 为无关变量。后果:OLS估计值仍是无偏估计,多设变量前的参数估计值均值为0。 2、漏设变量后,假设少x1,模型为:后果:OLS估计值不是无偏估计,失效。3、设错变量:后果:参数的OLS估计值不是无偏的。(同2),4、错误的函数形式如:5、样本数据发生偏差时,可能有: 其中,上述4、5二种类型因错误明显,无法用OLS求参数估计值。 一般 讨论1、2两种设定误差即可。,第三节 滞后变量模型介绍,一、滞后变量及模型经济活动中,有些因素的影响不仅体现在当期,而且波及以
5、后的时期。这种有滞后影响作用的因素构成的变量即为滞后变量,而含有滞后变量的模型称为滞后变量模型,分为有限滞后模型和无限滞后模型两类。二、产生滞后变量的可能原因:一类原因为心理因素,人的行为或经济活动所具有的惯性;另一类因素为客观因素,包括技术因素和制度因素两种。,三、滞后变量模型面临的问题,滞后变量模型若直接使用OLS,可能会出现一些问题:1、多重共线性问题;2、自由度损失问题;3、滞后变量模型中,最大滞后程度或者说最大滞后期限较难确定。由于上述原因,滞后变量模型一般会采用其它的估计方法。,四、滞后变量模型的类型,1、分布滞后模型。滞后变量仅为解释变量,形式为:2、自回归模型。滞后变量为被解释
6、变量的滞后值,且被解释变量的滞后值作为解释变量用。形式为:滞后变量模型常用的估计方法有Alt-Tinbergen方法、Almon估计法、Koyck方法等。,第四节 随机解释变量,一、随机解释变量:即解释变量为随机变量,违背了基本假设。实际的经济活动中,随机解释变量较为常见。单方程线性计量经济学模型假设之一是: 即解释变量与随机项不相关。 这一假设实际是要求: 或者X是确定性变量,不是随机变量; 或者X虽是随机变量,但与随机误差项不相关。 违背这一假设设的问题被称为随机解释变量问题。,二、随机解释变量的成因:,1、滞后被解释变量;2、观测误差的存在,使得解释变量的样本值出现不确定性;3、有些经济
7、变量不能用确定性的方法控制样本值,所以观测值具有随机性。,三、随机解释变量 的三种后果,1、解释变量是随机的,但与随机误差变量不相关,即有:因为OLS估计值为: 且有,2、解释变量为随机变量,小样本情况下与随机误差变量相关,但渐近不相关,即:此时 为B的渐近无偏估计。3、解释变量是随机变量,且与随机误差变量在任何情况下都高度相关,即有:则OLS估计值 为B的有偏估计。,强调:滞后被解释变量作解释变量,并且与随机误差项相关,如果模型中的随机解释变量是滞后被解释变量,并且与随机误差项相关时,除了OLS法参数估计量是有偏外,还带来两个后果: 模型必然具有随机误差项的自相关性。因为该滞后被解释变量与滞
8、后随机误差项相关,又与当期随机误差项相关。 D.W.检验失效。因为不管D.W.统计量的数值是多少,随机误差项的自相关性总是存在的。,随机解释变量模型举例:,A、耐用品存量调整模型: 耐用品的存量Qt由前一个时期的存量Qt-1和当期收入It共同决定:这是一个滞后被解释变量作为解释变量的模型。 但是,如果模型不存在随机误差项的序列相关性,那么随机解释变量Q t-1只与ut-1相关,与ut不相关,属于上述的第1种情况。,B、合理预期的消费函数模型,合理预期理论认为消费是由对收入的预期所决定的,或者说消费是有计划的,而这个计划是根据对收入的预期制定的。于是有:,其中,表示,t,期收入预期值。,而预期收
9、入与实际收入之间存在差距,表现为:,该式是由合理预期理论给出的。,在该模型中,作为解释变量的 不仅是一个随机解释变量,而且与模型的随机误差项 高度相关(因为Ct-1与ut-1高度相关)。属于上述第3种情况。存量调整模型和合理预期模型都是较有代表性的滞后变量模型。,容易推得:,第五节 时间序列模型初步,时间序列模型:所谓时间序列,就是各种社会、经济、自然现象的数量指标按照时间序列排列起来的经计数据。所谓时间序列分析模型,就是揭示时间序列自身的变化规律和相互联系的数学表达式(李子奈)。时间序列模型分确定性模型和随机模型两大类。我们主要介绍随机模型和序列稳定性检验。,1、时间序列模型的基本概念,随机
10、时间序列模型(time series modeling)是指仅用它的过去值及随机扰动项所建立起来的模型,其一般形式为建立具体的时间序列模型,需解决如下三个问题: (1)模型的具体形式 (2)时序变量的滞后期 (3)随机扰动项的结构 例如,取线性方程、一期滞后以及白噪声随机扰动项( t =t),模型将是一个1阶自回归过程AR(1): Xt=Xt-1+ t这里, t特指一白噪声(零均值、等方差、不相关),,一般的p阶自回归过程AR(p)是,(1)如果随机扰动项是一个白噪声(t=t),则称(*)式为一纯AR(p)过程(pure AR(p) process),记为 (2)如果t不是一个白噪声,通常认为
11、它是一个q阶的移动平均(moving average)过程MA(q):该式给出了一个纯MA(q)过程(pure MA(p) process)。,将纯AR(p)与纯MA(q)结合,得到一个一般的自回归移动平均(autoreg ressive moving average)过程ARMA(p,q):,Xt=1Xt-1+ 2Xt-2 + + pXt-p + t - 1t-1 - 2t-2 - - qt-q,该式表明:(1)一个随机时间序列可以通过一个自回归移动平均过程生成,即该序列可以由其自身的过去或滞后值以及随机扰动项来解释。(2)如果该序列是平稳的,即它的行为并不会随着时间的推移而变化,那么我们就
12、可以通过该序列过去的行为来预测未来。 这也正是随机时间序列分析模型的优势所在。,滞后算子(lag operator )L:,考虑p阶自回归模型AR(p) (*)引入滞后算子(lag operator )L,具有: (*)式变换为:记 (*)式又变换为:,对于移动平均模型MR(q): 其中t是一个白噪声,引入L有:,记则有:,自回归移动平均过程ARMA(p,q)的滞后算子式为:,经典回归模型的问题: 迄今为止,对一个时间序列Xt的变动进行解释或预测,是通过某个单方程回归模型或联立方程回归模型进行的,由于它们以因果关系为基础,且具有一定的模型结构,因此也常称为结构式模型(structural mo
13、del)。 然而,如果Xt波动的主要原因可能是我们无法解释的因素,如气候、消费者偏好的变化等,则利用结构式模型来解释Xt的变动就比较困难或不可能,因为要取得相应的量化数据,并建立令人满意的回归模型是很困难的。 有时,即使能估计出一个较为满意的因果关系回归方程,但由于对某些解释变量未来值的预测本身就非常困难,甚至比预测被解释变量的未来值更困难,这时因果关系的回归模型及其预测技术就不适用了。,2、时间序列分析模型的适用性,例如,时间序列过去是否有明显的增长趋势,如果增长趋势在过去的行为中占主导地位,能否认为它也会在未来的行为里占主导地位呢? 或者时间序列显示出循环周期性行为,我们能否利用过去的这种
14、行为来外推它的未来走向? 随机时间序列分析模型,就是要通过序列过去的变化特征来预测未来的变化趋势。 使用时间序列分析模型的另一个原因在于: 如果经济理论正确地阐释了现实经济结构,则这一结构可以写成类似于ARMA(p,q)式的时间序列分析模型的形式。,在这些情况下,我们采用另一条预测途径:通过时间序列的历史数据,得出关于其过去行为的有关结论,进而对时间序列未来行为进行推断。,二、时间序列数据的平稳性,假定某个时间序列是由某一随机过程(stochastic process)生成的,即假定时间序列Xt(t=1, 2, )的每一个数值都是从一个概率分布中随机得到,如果满足下列条件: 1)均值E(Xt)
15、=是与时间t 无关的常数; 2)方差Var(Xt)=2是与时间t 无关的常数; 3)协方差Cov(Xt,Xt+k)=k 是只与时期间隔k有关,与时间t 无关的常数; 则称该随机时间序列是平稳的(stationary),而该随机过程是一平稳随机过程(stationary stochastic process)。,1、平稳的定义,例1一个最简单的随机时间序列是一具有零均值同方差的独立分布序列: Xt=t , tN(0,2),例2另一个简单的随机时间列序被称为随机游走(random walk),该序列由如下随机过程生成: Xt=Xt-1+t这里, t是一个白噪声。,该序列常被称为是一个白噪声(whi
16、te noise)。 由于Xt具有相同的均值与方差,且协方差为零,由定义,一个白噪声序列是平稳的。,为了检验该序列是否具有相同的方差,可假设Xt的初值为X0,则易知 X1=X0+1 X2=X1+2=X0+1+2 Xt=X0+1+2+t 由于X0为常数,t是一个白噪声,因此Var(Xt)=t2 即Xt的方差与时间t有关而非常数,它是一非平稳序列。,容易知道该序列有相同的均值:E(Xt)=E(Xt-1),然而,对X取一阶差分(first difference): Xt=Xt-Xt-1=t由于t是一个白噪声,则序列 是平稳的。,后面将会看到:如果一个时间序列是非平稳的,它常常可通过取差分的方法而形成
17、平稳序列。 事实上,随机游走过程是下面我们称之为1阶自回归AR(1)过程的特例 Xt=Xt-1+t 不难验证:1)|1时,该随机过程生成的时间序列是发散的,表现为持续上升(1)或持续下降(1或=1时,时间序列是非平稳的; 对应于(*)式,则是0或 =0,时间序列是非平稳的;。,在式 中。零假设 ;备择假设,上述检验可通过OLS法下的t检验完成。 然而,在零假设(序列非平稳)下,即使在大样本下t统计量也是有偏误的(向下偏倚),通常的t 检验无法使用。,Dicky和Fuller于1976年提出了这一情形下t统计量服从的分布(这时的t统计量称为统计量),即DF分布(见表9.1.3)。由于t统计量的向
18、下偏倚性,它呈现围绕小于零值的偏态分布。,因此,可通过OLS法估计 并计算t统计量的值,与DF分布表中给定显著性水平下的临界值比较: 如果:t临界值,则拒绝零假设H0: =0,认为时间序列不存在单位根,是平稳的。注意:在不同的教科书上有不同的描述,但是结果是相同的。例如:“如果计算得到的t统计量的绝对值大于临界值的绝对值,则拒绝=0”的假设,原序列不存在单位根,为平稳序列。,DF检验假定了时间序列是由具有白噪声随机误差项的一阶自回归过程AR(1)生成的。 但在实际检验中,时间序列可能由更高阶的自回归过程生成的,或者随机误差项并非是白噪声,这样用OLS法进行估计均会表现出随机误差项出现自相关(autocorrelation),导致DF检验无效。 另外,如果时间序列包含有明显的随时间变化的某种趋势(如上升或下降),则也容易导致上述检验中的自相关随机误差项问题。 为了保证DF检验中随机误差项的白噪声特性,Dicky和Fuller对DF检验进行了扩充,形成了ADF(Augment Dickey-Fuller )检验。,2、ADF检验,ADF检验是通过下面三个模型完成的:,模型3 中的t是时间变量,代表了时间序列随时间变化的某种趋势(如果有的话)。 检验的假设都是:针对H1: -2.8196,不能推翻原假设,被检序列是非平稳的。,