1、百分位数回归及应用研究摘 要:在进行定量分析时,最小二乘法已经成为一种可信赖的工具。但是运用最小二乘法的条件比较高,在实际问题中,完全满足条件的情况并不多见,那么在应用时就难以得到无偏的、有效的参数估计量。针对上述问题,以 OILPLUS 公司取暖用燃油消耗的分布为主要研究对象,在进行参数估计时,应用百分位数回归方法,既可以看到采用百分位数回归方法与采用最小二乘法得到的模型显著不同,又可以得到比最小二乘法更为丰富的信息。 关键词:百分位数回归方法;最小二乘法;取暖用燃油消耗的分布 中图分类号:F224 文献标志码:A 文章编号:1673-291X(2013)22-0009-02 一、问题的提出
2、 通常的线性回归模型用于描述自变量对因变量均值的影响。但是在许多时候,仅仅描述自变量对均值的影响是不够的。更一般的理想模型应该能够描述给定自变量下,因变量的条件分布。因为有了条件分布,我们就能够全面了解因变量对自变量的依赖关系。正是基于这一思想,引入百分位数回归,该方法被公认为是统计研究领域的一个重要突破。 二、百分位数回归方法 假设因变量为 Y,k 个解释变量为 X1,X2,Xk 则 分位数回归模型: Y=0()+1()X1+2()X2+k()Xk (1) 参数 0() ,1() ,k()依赖于参数 ,表示参数可以随着分位数不同而变化。若记 X=(X1,X2,Xk),()=(0() ,1()
3、 ,k() ),样本为(Yi,Xi) ,i=1,2,n。那么模型(1)中的参数可以通过下面的式子得到: ()=arg (Yi-Xi() )+(-1) (Yi-Xi() ) 可以取 01 之间的任何值。实际上,最小绝对偏差法估计的值就是回归分位数在 =0.5 时的一个特例。因此,我们又称最小绝对值法为中位数回归法(Median Regression) 。最小绝对值法适用于各类残差的分布类型,特别适合于具有重尾分布或是在中位数附近有较大密度的分布(如 Cauchy 分布,Laplace 分布) ,是一种较最小二乘法更稳健,有效的回归分析方法。 三、实证研究 下面通过 OILPLUS 公司取暖用燃油
4、消耗的数据集,揭示除平均值以外的更多信息,以展示分位数回归的魅力。从 1989 年 8 月至 1994 年 2月的数据可以看出 OILPLUS 公司的客户连续 55 个月的取暖用燃油消耗和平均月温度。基于这些数据,图 1 取暖用燃油消耗和平均月温度的散点图。正如一般的认识所揭示的那样,这个散点图表明了取暖用燃油消耗和平均月温度之间的关系。其中 x 代表平均月温度,y 代表取暖用燃油消耗。 在统计软件 stata 上,对数据集进行统计分析,可选择输出许多结果(见下页图 2) 。在下页图 2 中,按从上到下的顺序算起,第 5 条直线表示的是最小二乘法得到的回归直线,其余直线,从上到下,它们的值 依
5、次是:0.9,0.8,0.7,0.6,0.5,0.4,0.3,0.2,0.1。 下页图 2 说明了平均月温度对取暖用燃油消耗的影响程度,揭示了取暖用燃油消耗和平均月温度之间的相关关系:取暖用燃油消耗随平均月温度升高而降低。众所周知,当气温回升时,人们对取暖的需求降低,取暖用燃油消耗就相应减少;当气温降低时,人们对取暖的需求升高,取暖用燃油消耗就相应增加。 从下页图 2 中可以看到随着分位数变化,各回归系数产生显著变化,与常用的普通最小二乘法回归的系数形成鲜明的对比,这表明,取暖用燃油消耗与平均月温度之间的关系并不像普通最小二乘法揭示的那么简单,而是在不同的平均月温度下具有不同的依赖形式。 不同
6、 值的分位数回归直线之间的间隙先宽后窄,说明了平均月温度低时的取暖用燃油消耗分布比平均月温度高时更分散,也就是说平均月温度高时对取暖用燃油消耗的分布影响不大,平均月温度低时对取暖用燃油消耗的分布影响显著。随着分位数增加,回归系数减少,表明取暖用燃油消耗与平均月温度的负相关关系更强。 中位数回归直线一直位于最小二乘法所得到的回归直线之下,说明了取暖用燃油消耗是右偏的:分位数回归直线左侧之间间隙较宽,寓示了数据点比较稀疏且拖尾;而分位数回归直线右侧之间间隙较窄,寓示了数据点密集。从图 2 还可以清楚地看出,中位数回归直线的位置和由最小二乘法得到的线性回归直线的位置显著不同,这说明了条件密度的不对称
7、性,也说明了此时最小二乘法显然受到异常点的影响较大,它的这种不稳健性的后果,常常高估了取暖用燃油消耗。 四、结论 从这个实例可以看出,分位数分解方法有以下几个优点:首先,分位数分解克服了传统 OLS 回归的缺陷,允许解释变量的系数随着分位数的变化而变化,不再是一个常数。均值只是分布的一个方面,使用 QR 可以提炼出更多的信息。 QR 实际上是估计取暖用燃油消耗分布的逆函数,通过 QR 可以得到任何一个分位点的取暖用燃油消耗数值的方程,如取暖用燃油消耗的中位数、10 分位数、90 分位数等。其次,QR 分解不仅可以研究方程中系数变化对取暖用的燃油消耗的影响,还可以解释变量分布的变化对取暖用的燃油
8、消耗的影响。传统的 OLS 方法只能研究解释变量平均值对取暖用的燃油消耗的影响。 分位数回归的理论从提出至今已有三十年,分位数回归是最小二乘法的有益补充,并已逐渐成为一种估计条件分位数函数的标准的统计方法。 参考文献: 1 王震.基于分位数回归分解农民工性别工资差异研究J.世界经济文汇,2010, (3):35-38. 2 齐晓丽,金善女.基于面板数据的分位数回归及实证研究J.河北工业大学学报,2010, (3):98-101. 3 蔡超.基于分位数回归的中国保险需求分析J.山东工商学院学报,2012, (26):102-105. 4 苏瑜,万宇艳.分位数回归的思想与简单应用J.统计教育,20
9、09, (10):58-61. 5 陈建宝,丁军军.分位数回归技术综述J.统计与信息论坛,2008, (3):89-96. Quantile Regression and Application Research GUO Yue-ling (Hunan Institute of Technology,Hengyang 421008,China) Abstract:In the quantitative analysis,the least square method (OLS) has become a reliable tool. But the conditions for using t
10、he least square method are relatively high,in the actual problem,the cases for fully meeting the conditions are rare,then it is difficult to get a unbiased and valid parameter estimator. In this paper,Aiming at these problems,taking the OILPLUS distribution of heating fuel consumption as the main re
11、search object,I apply percentile regression method,you can see the quantile regression method and the least square method is significantly different,you can get richer information than the least squares method. Key words:quantile regression method;least square method;fuel consumption distribution 责任编辑 吴高君