1、浅析断点回归的经济学应用 摘 要:断点回归( Regression Discontinuity)是仅次于随机实验的,能够有效利用现实约束条件分析变量之间因果关系的实证方法。 Thistleth waite 和 Campbell 于 1960 年正式发表了第一篇关于断点回归的论文。随后Campbell 和 Stanley 为断点回归提供了更加清晰化的概念,在被诸多学者所完善之后,断点回归分析方法被广泛应用于经济学领域。从断点回归的基本模型出发,简要分析断点回归为了使用与经济学而进行的两个变型。 关键词:断点回归;处理效应;经济学应用 中图分类号: F224 文献标志码: A 文章编号: 1673
2、-291X( 2016)09-0003-02 断点回归首先出现在 Thistlethwaite 和 Campbell( 1960)关于 “ 对学生的未来学术成果(生涯渴望和研究生项目等级)进行嘉奖 ” 的研究中。其研究表明,奖励根据学生参与测试的成绩进行分配。假设某一学生的分数为 X,大于等于一临界值 c,便会获得奖励,相反,低于此临界值的学生则享受不到奖励。在这一处理实验(给予奖励)中便会形成一个明显的断点,以函数表达则表现为不连续。用虚拟变量 D=0, 1表达处理的收益,即当Xc 时, D=1;当 Xc 时, D=0。 另外,毋庸置疑的是,除了接受奖励,对于未来学术成果 Y也是测试分数的不
3、连续函数。因此, Y在 c 处的跳跃间断便是受到奖励的因果效应。假设 Y和 X 之间呈现线性关系,方程( 1)便简单地表达了对于处理效应 的简单估计。 Y=+D+X+ ( 1) 表示误差项,可看作是 Y的值对回归线 +D+X 产生的随机误差项。Thistlethwaite 和 Campbell( 1960)给出了为什么系数 可以被看作是受到奖励的效应的估 计的一些视觉上的证据(见图 1)。假设某一样本的得分 X就是 c,这一情况下,我们要猜测其收益 Y 是否为接受了奖励的结果。 假设我们可以认为除了是否奖励,其余因素对于 X 都是平滑的。则 B可以看作是对得分刚好为 c(获得奖励)的样本其收益
4、 Y 的合理猜测。同理,A 可以看作是未接受奖励的样本。因此 B - A 可以看作是因果估计。可见, RD设计应该采用临界点附近的样本作为研究对象,如图 1中 c 和c 。 因此理论上来说,样本选取越接近临界点越好。然而在实践过程中,我们不能仅仅考虑临界点附近的样本。所考 虑的范围越窄,样本数量就会越少。图 1 显示,比 c 和 c 更加邻近的样本根本不存在。因此,为了充分利用有限的数据,猜测关于 X=c时是否获得奖励,我们仍需要距离临界点相比来说有一定距离的样本。如果方程确定为线性,我们便可以用 OLS估计获得 D的系数 的最优无偏估计量。 有上述讨论便可以看出 RD 的两个特点:首先,需要
5、考虑充分能够影响 Y的所有因素,而且这些因素对于 X而言应该是平滑的。如果另有因素在 c处出现跳跃,对于 (获得奖励的收益)的估计或许是有偏的。另外,因为RD 还需要距离临界点较远的数据,因此对于回归 方程的选择很重要。本文所讨论的,如果斜率 被错误地限定为 0,对于 D的 OLS估计将得出有偏的结果。 一、 RD 潜在结果分析框架 当 RD 被引用为应用经济学中,比如 Van der Klaauw( 2002), Black( 1999),以及 Angrist and Lavy( 1999),上文提及的识别项在基于 Hahn,Todd 和 Van der Klaauw( 2001)的理论上被
6、形式化,其认为 RD 评估策略运用了有关处理效应文献的相关语言。 Hahn, Todd 和 Van der Klaauw( 2001)中指出了 RD 的关键性假设,所有变量对于 X而言应该是连续的,而且如前文提到的一般模型一样对于 估计的非参数过程不局限在基本的线性问题上。 越来越多的有关 “ 处理效应 ” 的文献通过潜在结果分析框架支持了 “ 连续性假设 ” 的必要性,并通过图表予以辅助说明。对于样本个体 i而言,存在了两种潜在的结果,即接受处理得到结果 Yi( 1)和拒绝处理得到结果 Yi( 0)。处理的因果效应便可以通过一次差分 Yi( 1) - Yi( 0)获得。 因果推论的基本问题在
7、于,我们不能同时发现一对完美的 Yi( 1)和 Yi( 0)。因此,我们转而关注 处理效应的平均值,即 Yi( 1) - Yi( 0)在一组样本上的处理效应而不是单个样本。 关于 RD 实验的准备,我们假设对于结果和变量 X,存在两组对应关系,EYi( 1) |X和 EYi( 0) |X(如图 2 所示)。根据 RD实验原理,对于所有位于间断点右侧的样本点(本图中 c=2 处)选择接受处理而左侧的拒绝处理。因此对于 EYi( 1) |X我们仅考虑其在 c=2 右侧的图像,而对于 EYi( 0) |X我们仅考虑其在 c=2 左侧的图像。 这就是在间断点 c处的平均处理效应。因为 EYi( 1)
8、|X和 EYi( 0)|X是连续的,因此上述推论方可成立。本质上来说,连续性前提使得我们能够用图中 c 右侧下面的曲线(拒绝处理组)作为 c右侧上面的曲线(接受处理组)平均实施结果的有效参照。 尽管潜在结果分析框架对于理解断点回归如何应用于经济学分析框架十分有帮助,但仍旧存在一些难点。首先,连续性前提看似合乎情理但从经济学角度理解很难尽善尽美。一些经典经济学假设对于连续性不做要求,因此。对于一些经济行为,我们很难定义 “ 连续 ” 。其次,断点回归实验是对于样本选择有特殊的要求。通常包含两个重要条件:一是可见的随机分配条件。对 于标准回归分析框架,所有相关因素都应受到控制,没有遗漏的变量与虚拟
9、处理变量存在相关性。在断点回归分析中,这一条件能够得到很好的满足。当 Xc 时,虚拟处理变量 D总为 1,而当 Xc时,其值为0,故而不存在任何随意变量,也不会与其他任何变量相关。另外,对于一个确定的 X,不会存在使得 D的值或为 1或为 0 的情况。这是因为,连续性假设下,不应存在重叠。因此,我们仅仅可以说是对于间断点两侧的取值是十分相近的。 二、随机局部实验的 RD 分析 当我们把断点回归分析作为随机试验下政策工程效果的评估的方法时,我们可以 看出,断点回归分析更像是随机试验。 在一个随机试验中,样本基于随机生成的数字 v 被分为处理组和控制组。V 服从 0, 4的均匀分布,并且在 v 大
10、于等于 2 时接受处理,反之拒绝。这一情况下,断点回归设计便是 X=v在间断点 v=2处间断的情况(如图 3所示)。图 3为潜在结果分析框架的一种特殊情况,在这里, X 是完全随机的,不再由潜在结果 Yi( 1)和 Yi( 0)决定,因此其图形是平坦的。由于 EYi( 1)|X和 EYi( 0) |X在随机试验中是平坦的曲线,因此,平均的处理效应便是间断点右侧的平均值和左侧平均值的差。或 许会有人对 X做 Y的回归,但是,如果我们确定随机是成功的, X 应该与这一回归是不相关的。 现在我们举一个简单的例子说明,出于某种原因,人们可以获得与随机数字 X呈反比例的经济补偿。处理政策为失业者能否在一
11、个月内重新找到工作。获得补偿多的人能够负担得起更长的寻找工作周期,其潜在结果曲线则变成斜率为政的曲线。这是因为,得到的随机数字越大,获得的补偿就会越少,故而缩减了寻找工作的周期,这样便会呈现出和图 2相似的情形。 经典的随机试验,不能够得到处理效应的一致估计。通过研究断点右侧,断点回归的方法仍旧 能够产生处理效应的一致估计。这是因为,由于处于间断点附近的人们本质上来说得到的补偿差异不大。因此,在间断点附近仍旧是一个局部随机试验。在本实验中,因为我们假设了经济补偿是关于 X的连续函数。因此,连续性假设使得我们能够得到对于处理效应的一致估计量。 参考文献: Thistleth waite, Campbe ex post facto experiment” , Journal of Educational Psychology, 1960,( 6): 309-317. Campbell, D.T., Stanley, J.C., “Exprimental and quasi-experimental design for research on teaching” , In N.L.Cage( ED), Handbook of research on teaching Chicago: Rand McNally, 1963: 171-246. 责任编辑 刘娇娇