1、第三章 财务预警的模型与方法(上),第三章 财务预警的模型与方法(上),第一节 一元线性回归第二节 多元线性回归,第一节 一元线性回归,一. 一元线性回归模型二. 参数的最小二乘估计三. 回归方程的显著性检验四. 预测及应用,什么是回归分析?(内容),从一组样本数据出发,确定变量之间的数学关系式;对这些关系式的可信程度,进行各种统计检验,并从影响某一特定变量的诸多变量中,找出哪些变量的影响显著,哪些不显著;利用所求的关系式,根据一个或几个变量的取值,来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度。,回归方程一词是怎么来的,回归分析与相关分析的区别,相关分析中,变量 x 变量
2、y 处于平等的地位;回归分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化;相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量;相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制 。,回归模型的类型,一、回归模型与回归方程,回 归 模 型,1 . 回答“变量之间是什么样的关系?”2 . 方程中运用1 个数字的因变量(响应变量)被预测的变量1 个或多个数字的或分类的自变量 (解释变量)用于预测
3、的变量3.主要用于预测和估计。,一元线性回归模型(概念要点),当只涉及一个自变量时称为一元回归,若因变量 y 与自变量 x 之间为线性关系时,称为一元线性回归;对于具有线性关系的两个变量,可以用一元线性方程来表示它们之间的关系;描述因变量 y 如何依赖于自变量 x 和误差项 的方程,称为回归模型。,一元线性回归模型(概念要点), 对于只涉及一个自变量的简单线性回归模型可表示为 y = b0 + b1 x + e模型中,y 是 x 的线性函数(部分)加上误差项;线性部分反映了由于 x 的变化而引起的 y 的变化;误差项 是随机变量反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响;
4、是不能由 x 和 y 之间的线性关系所解释的变异性。0 和 1 称为模型的参数。,一元线性回归模型(基本假定),误差项是一个期望值为0的随机变量,即E()=0。对于一个给定的 x 值,y 的期望值为 E ( y ) = 0+ 1 x ;对于所有的 x 值,的方差2 都相同;误差项是一个服从正态分布的随机变量,且相互独立。即N( 0 ,2 ) ;独立性意味着对于一个特定的 x 值,它所对应的与其他 x 值所对应的不相关;对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关。,回归方程(概念要点),描述 y 的平均值或期望值,如何依赖于 x 的方程,称为回归方程;简单线性
5、回归方程的形式如下 E( y ) = 0+ 1 x,方程的图示是一条直线,因此也称为直线回归方程;0是回归直线在 y 轴上的截距,是当 x=0 时 y 的期望值;1是直线的斜率,称为回归系数,表示当 x 每变动一个单位时,y 的平均变动值。,估计(经验)的回归方程,总体回归参数 和 是未知的,必需利用样本数据去估计;,用样本统计量 和 代替回归方程中的未知参数 和 ,就得到了估计的回归方程;,简单线性回归中估计的回归方程为,其中: 是估计的回归直线在 y 轴上的截距, 是直线的斜率,它表示对于一个给定的 x 的值,是 y 的估计值,也表示 x 每变动一个单位时, y 的平均变动值 。,二、参数
6、 0 和 1 的最小二乘估计,最小二乘法(概念要点),使因变量的观察值与估计值之间的离差平方和达到最小来求得 和 的方法。即,用最小二乘法拟合的直线,来代表x与y之间的关系与实际数据的误差,比其他任何直线都小。,最小二乘法(图示),最小二乘法( 和 的计算公式),根据最小二乘法的要求,可得求解 和 的标准方程如下,估计方程的求法(实例),【例】根据例1中的数据,拟合人均消费金额对人均国民收入的回归方程。 根据 和 的求解公式得,估计(经验)方程,人均消费金额对人均国民收入的回归方程为,y = 54.22286 + 0.52638 x,估计方程的求法(Excel的输出结果),三、回归方程的显著性
7、检验,离差平方和的分解,因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面由于自变量 x 的取值不同造成的;除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响。对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示。,离差平方和的分解(图示),离差平方和的分解 (三个平方和的关系),从图上看有,2. 两端平方后求和有,SST = SSR + SSE,离差平方和的分解 (三个平方和的意义),总平方和 (SST)反映因变量的 n 个观察值与其均值的总离差。回归平方和 (SSR)反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由
8、于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和。残差平方和 (SSE)反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和。,样本决定系数(判定系数 r2 ),回归平方和占总离差平方和的比例,反映回归直线的拟合程度;取值范围在 0 , 1 之间; r2 1,说明回归方程拟合的越好;r20,说明回归方程拟合的越差;判定系数等于相关系数的平方,即r2(r)2,回归方程的显著性检验 (线性关系的检验),检验自变量和因变量之间的线性关系是否显著;具体方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别
9、是否显著。如果是显著的,两个变量之间存在线性关系;如果不显著,两个变量之间不存在线性关系。,回归方程的显著性检验 (检验的步骤),1. 提出假设H0:线性关系不显著,2. 计算检验统计量F,确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F 作出决策:若FF ,拒绝H0;若Ft,拒绝H0; t t = 2.201,拒绝H0,表明人均收入与人均消费之间有线性关系。,回归系数的显著性检验 (Excel输出的结果),四、预测及应用,利用回归方程进行估计和预测,根据自变量 x 的取值估计或预测因变量 y的取值估计或预测的类型点估计y 的平均值的点估计y 的个别值的点估计区间估计y 的平均
10、值的置信区间估计y 的个别值的预测区间估计,利用回归方程进行估计和预测 (点估计),对于自变量 x 的一个给定值x0 ,根据回归方程得到因变量 y 的一个估计值 ;,2. 点估计值有y 的平均值的点估计;y 的个别值的点估计。3. 在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同。,利用回归方程进行估计和预测 (点估计), y 的平均值的点估计利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的一个估计值E(y0) ,就是平均值的点估计;在前面的例子中,假如我们要估计人均国民收入为2000元时,所有年份人均消费金额的的平均值,就是平
11、均值的点估计。根据估计的回归方程得,利用回归方程进行估计和预测 (点估计), y 的个别值的点估计,利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计值 ,就是个别值的点估计;,2. 比如,如果我们只是想知道1990年人均国民收入为1250.7元时的人均消费金额是多少,则属于个别值的点估计。根据估计的回归方程得,利用回归方程进行估计和预测 (区间估计),点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计;对于自变量 x 的一个给定值 x0,根据回归方程得到因变量 y 的一个估计区间;区间估计有两种类型置信区间估计预测区间估计
12、,利用回归方程进行估计和预测 (置信区间估计), y 的平均值的置信区间估计 利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值E(y0)的估计区间 ,这一估计区间称为置信区间; E(y0) 在1-置信水平下的置信区间为,式中:Sy为估计标准误差,利用回归方程进行估计和预测 (置信区间估计:算例),【例】根据前例,求出人均国民收入为1250.7元时,人均消费金额95%的置信区间。 解:根据前面的计算结果 712.57,Sy=14.95,t(13-2)2.201,n=13 置信区间为,712.5710.265,人均消费金额95%的置信区间为702.305元722.
13、835元之间。,利用回归方程进行估计和预测 (预测区间估计), y 的个别值的预测区间估计 利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间,这一区间称为预测区间 。 y0在1-置信水平下的预测区间为,利用回归方程进行估计和预测 (置预测区间估计:算例),【例】根据前例,求出1990年人均国民收入为1250.7元时,人均消费金额的95%的预测区间。 解:根据前面的计算结果有 712.57,Sy=14.95,t(13-2)2.201,n=13 置信区间为,人均消费金额95%的预测区间为678.101元747.039元之间 。,712.5734.46
14、9,影响区间宽度的因素,1.置信水平 (1 - )区间宽度随置信水平的增大而增大2.数据的离散程度 (s)区间宽度随离散程度的增大而增大3.样本容量区间宽度随样本容量的增大而减小4.用于预测的 xp与x的差异程度区间宽度随 xp与x 的差异程度的增大而增大,置信区间、预测区间、回归方程,第二节 多元线性回归,一. 多元线性回归模型二. 回归参数的估计三. 回归方程的显著性检验四. 回归系数的显著性检验五. 多元线性回归的预测,第二节 多元线性回归,一、多元线性回归模型,多元线性回归模型(概念要点),一个因变量与两个及两个以上自变量之间的回归;描述因变量 y 如何依赖于自变量 x1 , x2 ,
15、 xp 和误差项 的方程,称为多元线性回归模型;涉及 p 个自变量的多元线性回归模型可表示为,b0 ,b1,b2 ,bp是参数; 是被称为误差项的随机变量; y 是x1,,x2 , ,xp 的线性函数加上误差项 ; 说明了包含在y里面,但不能被p个自变量的线性 关系所解释的变异性。,多元线性回归模型(概念要点), 对于 n 组实际观察数据(yi ; xi1,,xi2 , ,xip ),(i=1,2,n),多元线性回归模型可表示为,多元线性回归模型(基本假定),自变量 x1,x2,xp是确定性变量,不是随机变量;随机误差项的期望值为0,且方差2 都相同;误差项是一个服从正态分布的随机变量,即N(
16、0,2),且相互独立。,多元线性回归方程(概念要点),描述 y 的平均值或期望值如何依赖于 x1, x1 ,xp的方程,称为多元线性回归方程;多元线性回归方程的形式为 E( y ) = 0+ 1 x1 + 2 x2 + p xp,b1,b2,bp称为偏回归系数; bi 表示假定其他变量不变,当 xi 每变动一个单 位时,y 的平均平均变动值。,多元线性回归方方程的直观解释,多元线性回归的估计(经验)方程,1. 总体回归参数 是未知的,利用样本数据去估计;,用样本统计量 代替回归方程中的 未知参数 即得到估计的回归方程,是 估计值; 是 y 的估计值。,二、参数的最小二乘估计,参数的最小二乘法(
17、要点),使因变量的观察值与估计值之间的离差平方和达到最小来求得 。即,根据最小二乘法的要求,可得求解各回归参数 的标准方程如下,第二节 多元线性回归,三、回归方程的显著性检验,多重样本决定系数 (多重判定系数 R2 ),回归平方和占总离差平方和的比例,反映回归直线的拟合程度;取值范围在 0 , 1 之间; R2 1,说明回归方程拟合的越好; R20,说明回归方程拟合的越差;等于多重相关系数的平方,即R2=(R)2,修正的多重样本决定系数 (修正的多重判定系数 R2 ),由于增加自变量将影响到因变量中被估计的回归方程所解释的变异性的数量,为避免高估这一影响,需要用自变量的数目去修正R2的值;用n
18、表示观察值的数目,p表示自变量的数目,修正的多元判定系数的计算公式可表示为,回归方程的显著性检验 (线性关系的检验),检验因变量与所有的自变量和之间的是否存在一个显著的线性关系,也被称为总体的显著性检验;检验方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用 F 检验来分析二者之间的差别是否显著。如果是显著的,因变量与自变量之间存在线性关系;如果不显著,因变量与自变量之间不存在线性关系。,回归方程的显著性检验(步骤),提出假设H0:12p=0 线性关系不显著H1:1,2,p至少有一个不等于0,2. 计算检验统计量F,3. 确定显著性水平和分子自由度p、分母自由度n-p-1
19、找出临界值F 4. 作出决策:若FF ,拒绝H0;若FF,接受H0,回归系数的显著性检验(要点),如果F检验已经表明了回归模型总体上是显著的,那么回归系数的检验就是用来确定每一个单个的自变量 xi 对因变量 y 的影响是否显著对每一个自变量都要单独进行检验应用 t 检验在多元线性回归中,回归方程的显著性检验不再等价于回归系数的显著性检验,回归系数的显著性检验(步骤),提出假设H0: bi = 0 (自变量 xi 与 因变量 y 没有线性关系) H1: bi 0 (自变量 xi 与 因变量 y有线性关系) 计算检验的统计量 t,确定显著性水平,并进行决策 tt,拒绝H0; tF0.05(2,7)
20、=4.74,回归方程显著 回归系数的显著性检验t= 9.3548t=0.3646,; t2 = 4.7962 t=2.3646;两个回归系数均显著,一个含有四个变量的回归,第三章 财务预警的模型与方法(上),趋向中间高度的回归,回归这个术语是由英国著名统计学家Francis Galton在19世纪末期研究孩子及他们的父母的身高时提出来的。 Galton发现身材高的父母,他们的孩子也高。但这些孩子的平均身高,并不像他们的父母那样高。对于比较矮的父母情形也类似:他们的孩子比较矮,但这些孩子的平均身高,要比他们父母的平均身高高。 Galton把这种孩子的身高向中间值靠近的趋势,称之为一种回归效应,而他发展的研究两个数值变量的方法称为回归分析。,