1、浙江工商大学金融学院姚耀军讲义系列1第一讲 普通最小二乘法的代数一、 问题假定 y 与 x 具有近似的线性关系:,其中 是随机误差项。我们对01这两个参数的值一无所知。我们的任务是利用、样本数据去猜测 的取值。现在,我们手中就有01、一个样本容量为 N 的样本,其观测值是:。问题是,如何利用该样本12(,),.(,)yxyx来猜测 的取值?01、为了回答上述问题,我们可以首先画出这些观察值的散点图(横轴 x,纵轴 y) 。既然 y 与 x 具有近似的线性关系,那么我们就在图中拟合一条直线:。该直线是对 y 与 x 的真实关系的近似,01y而 分别是对 的猜测(估计) 。问题是,如,01,何确定
2、 与 ,以使我们的猜测看起来是合理的呢?01笔记:1、为什么要假定 y 与 x 的关系是 呢?一种合01yx理的解释是,某一经济学理论认为 x 与 y 具有线性的因果关系。该理论在讨论 x 与 y 的关系时认为影响 y 的其他因素是不重要的,这些因素对 y 的影响即为模型中的误差项。浙江工商大学金融学院姚耀军讲义系列22、 被称为总体回归模型。由该模型有:01yx。既然 代表其他不重要因素对E()E()y 的影响,因此标准假定是: 。故进而有:0x,这被称为总体回归方程(函数) ,而01x相应地被称为样本回归方程。由样本回归方程确定的 与 是有差异的, 被称为残差 。进而有:yy,这被称为样本
3、回归模型。01x二、 两种思考方法法一:与 是 N 维空间的两12(,.)Ny12(,.)y点, 与 的选择应该是这两点的距离最短。这可0以归结为求解一个数学问题: 01012 201 , ,()()NNi iii iMnynyx由于 是残差 的定义,因此上述获得 与 的i i1方法即是 与 的值应该使残差平方和最小。01法二:给定 ,看起来 与 越近越好(最近距离是 0) 。ixiyi然而,当你选择拟合直线使得 与 是相当近的时候,iiy与 的距离也许变远了,因此存在一个权衡。一jyj种简单的权衡方式是,给定 ,拟合直线的12,.Nx浙江工商大学金融学院姚耀军讲义系列3选择应该使 与 、 与
4、 、.、 与 的距离的1y22yNy平均值是最小的。距离是一个绝对值,数学处理较为麻烦,因此,我们把第二种思考方法转化求解数学问题: 01 012 201 , ,()/()/NNi iii iMnyMnyxN由于 N 为常数,因此法一与法二对于求解 与 的值是无差异的。三、 求解定义 ,利用一阶条件,有:2011()NiiiQyx0102()(0 (1)iiiiiyx由(1)也有: 01yx在这里 、1Ni1Ni浙江工商大学金融学院姚耀军讲义系列4笔记:这表明:1、样本回归函数 过点 ,即穿01yx(,)y过数据集的中心位置;2、 (你能证明吗?) ,这意味着,尽管 的取值不能保证 ,但 的取
5、值能够保01、 ii01、证 的平均值与 的平均值相等;3、虽然不能保证每一个残差yy都为 0,但我们可以保证残差的平均值为 0。从直觉上看,作为对 的一个良好的猜测,它们应该满足这样1、 01、的性质。 0112()(0 (2)0iiiiiiQyxx笔记:对于简单线性回归模型: ,在 OLS 法下,01yx由正规方程(1)可知,残差之和为零【注意:只有拟合直线带有截距时才存在正规方程(1) 】 。由正规方程(2) ,并结合正规方程(1)有: 10()()0(,)i ii iixxxCov见 练 习 ( ) 提 示无论用何种估计方法,我们都希望残差所包含的信息价值很小,浙江工商大学金融学院姚耀
6、军讲义系列5如果残差还含有大量的信息价值,那么该估计方法是需要改进的!对模型 利用 OLS,我们能保证(1):残01yx差均值为零;(2)残差与解释变量 x 不相关【一个变量与另一个变量相关是一个重要的信息】 。方程(1)与(2)被称为正规方程,把带入(2) ,有:01yx11()0iiiiiyxy上述获得 的方法就是普通最小二乘法(OLS) 。0、练习:(1)验证: 222()()()iiiiiiiyxyxxyNx提示:定义 的离差为 ,则离差之和 必iZiizZ10Niz为零。利用这个简单的代数性质,不难得到:浙江工商大学金融学院姚耀军讲义系列6()()iiiiiiiyxyx笔记:定义 y
7、 与 x 的样本协方差、x 的样本方差分别为:,2(,)()/iiiCovxyNVar则 。1(,)xy上述定义的样本协方差及其样本方差分别是对总体协方差 及xy其总体方差 的有偏估计。相应的无偏估计是:2x22()/(1)yiixisxyN基于前述对 与 的定义,可以验证:()Var(,)Cov2(,)bVarxyvy其中 a,b 是常数。值得指出的是,在本讲义中,在没有引起混淆的情况下,我们有时也用 、 来表示总体方()rx(,)o差与协方差,不过上述公式同样成立。(2)假定 ,用 OLS 法拟合一个过原点的yx直线: ,求证在 OLS 法下有:浙江工商大学金融学院姚耀军讲义系列72ixy
8、并验证: 222iiiy笔记:1、现在只有一个正规方程,该正规方程同样表明。然而,由于模型无截距,因此在 OLS 法下我们0ix不能保证 恒成立。所以,尽管 成立,但i 0ix现在该式并不意味着 成立。(,)0Covx2、无截距回归公式的一个应用: 01 101()()()ii iiiyyxx定义 、 、 ,则iiFyiiDiie。按照 OLS 无截距回归公式,有:1e22()iiiyx(3)假定 ,用 OLS 法拟合一水平直线,即:y,求证 。笔记:证明上式有两种思路,一种思路是求解一个最优化问题,浙江工商大学金融学院姚耀军讲义系列8我们所获得的一个正规方程同样是 ;另外一种思路是,0i模型
9、 是模型 的特例,利用 的yyx0ix结论,注意到此时 ,因此同样有 。1i i(4)对模型 进 OLS 估计,证明残差01yx与 样本不相关,即 。(,)0Covy四、 拟合程度的判断(一)方差分解及其 R2 的定义可以证明, 。()()()VaryVar证明: 2,y Covy011(,)(,)(,)0CovvxxVaryVar方差表示一个变量波动的信息。方差分解亦是信息分解。建立样本回归函数 时,从直觉上看,01x我们当然希望关于 的波动信息能够最大程度地体现y关于 的波动信息。因此,我们定义判定系数y,显然, 。如果 R2 大,则 的2()VarR201y波动信息就越能够被 的波动信息
10、所体现。R 2 也被称y为拟合优度。当 时, ,而残差均值又2()0Var浙江工商大学金融学院姚耀军讲义系列9为零,因此着各残差必都为零,故样本回归直线与样本数据完全拟合。(二)总平方和、解释平方和与残差平方和定义: 222()()()ii iiiTSyEyR其中 TSS、ESS、RSS 分别被称为总平方和、解释平方和与残差平方和。根据方差分解,必有:TSS=ESS+RSS。因此, 2/1/ESTRST(三)关于 R2 的基本结论1、R 2 也是 与 的样本相关系数 r 的平方。y证明: 22 2(,)()(,)()CovVayCovVaryyrrRVa2、对于简单线性回归模型: , R2 是
11、01xy 与 x 的样本相关系数的平方。证明: 22 22 0112(,+)(,) (,)R),()xyCovovyCovyxVarVarVar浙江工商大学金融学院姚耀军讲义系列10练习:(1)对于模型: ,证明在 OLS 法下yR2=0。(2)对于模型: ,证明在 OLS 法01x21()Vary警告!软件包通常是利用公式 ,其中21/RST来计算 R2。应该注意到,我们在得到结2iRS论时利用了 的性质,222()()i iiyy0而该性质只有在拟合直线带有截距时才成立,因此,如果拟合直线无截距,则上述结论并不一定成立,因此,此时我们不能保证 R2 为一非负值。总而言之,在利用 R2 时,我们的模型一定要带有截距。当然,还有一个大前提,即我们所采用的估计方法是OLS。五、 自由度与调整的 R2如果在模型中增加解释变量,那么总的平方和不变,但残差平方和至少不会增加,一般是减少的。为什么呢?举一个例子。假如我们用 OLS 法得到的模