1、3.1 + 即y=x +yn21x21n xp10n2基本假定(1)解释变量x1,x2.,xp是确定性变量,不是随机变量,且要求rank(X)=p+1n,表明设计矩阵X中自变量列之间不相关,样本量的个数应大于解释变量的个数(2)随机误差项具有零均值和等方差,即高斯马尔柯夫条件nE,21,0)(0)cov(2,n2,1(3)对于多元线性回归的正态分布假定条件的矩阵模型为N(0, ) 随即向量yN(X )nI2nI2,3.2当 存在时,回归参数的最小二乘估计为 ,(1)XT YXT1)(要求出回归参数 ,即要求 是一个非奇异矩阵, ,所以XT 0T可逆矩阵 为p+1阶的满秩矩阵,又根据两个矩阵乘积
2、的秩不大于T每一因子的秩rank(X) p+1,而X为n (p+1)阶矩阵,于是应有n p+1结论说明,要想用最小二乘法估计多元线性回归模型的未知参数,样本量n必须大于模型自变量p的个数。3.31)( )1()1 )1( 1)(1)1()21 22 221 22 22 phHtr pnpn heDeEDeEpSpnEeneySn nnn 注 3.4不能断定这个方程一定很理想,因为样本决定系数与回归方程中自变量的数目以及样本量n有关,当样本量个数n太小,而自变量又较多,使样本量与自变量的个数接近时, 易接近1,其中隐藏一些2R虚假成分。3.5当接受H 时,认定在给定的显著性水平 下,自变量x1,
3、x2, xp0 对因变量y无显著影响,于是通过x1,x2, xp去推断y也就无多大意义,在这种情况下,一方面可能这个问题本来应该用非线性模型去描述,而误用了线性模型,使得自变量对因变量无显著影响;另一方面可能是在考虑自变量时,把影响因变量y的自变量漏掉了,可以重新考虑建模问题。当拒绝H 时,我们也不能过于相信这个检验,认为这个回归模型0已经完美了,当拒绝H 时,我们只能认为这个模型在一定程度上说0明了自变量x1,x2, xp与自变量y的线性关系,这时仍不能排除排除我们漏掉了一些重要的自变量。3.6中心化经验回归方程的常数项为0,回归方程只包含p个参数估计值 比一般的经验回归方程减少了一个未知参
4、数,在变量较p,21多时,减少一个未知参数,计算的工作量会减少许多,对手工计算尤为重要。在用多元线性回归方程描述某种经济现象时,由于自变量所用的单位大都不同,数据的大小差异也往往很大,这就不利于在同一标准上进行比较,为了消除量纲不同和数量级的差异带来的影响,就需要将样本数据标准化处理,然后用最小二乘法估计未知参数,求得标准化回归系数。3.7对 进行中心化处理得pxxy 210再将等式除以因变量的样)()()( px本标准差 则有 =yL* )()()(2211 pypyyy xLxx =pypyy LL2211 *21pxx所以 *jjLyj ,1,3.8 ( 为相关阵( ) 第i行,第j列的
5、代数余子式)ijijrp=213;12r 1)(1)(3223231rr)1(2233r3.9 F =j )1()()1()()()1( )()()1()( 22()()( ()()( yjyjyjjjjj jjjjj rpnrpnSESEpn SESSRSR 小于1,F 与 一一对应,所以F 与 等价2yjrj2yjrj2yjr3.10 pnSEpRn1)1( 2)1( RSTSSEpn 证得 pnFR)(23.11 (1)相关性y x1 x2 x3Pearson 相关性 1 .556 .731* .724*显著性(双侧) .095 .016 .018yN 10 10 10 10Pearso
6、n 相关性 .556 1 .113 .398显著性(双侧) .095 .756 .254x1N 10 10 10 10Pearson 相关性 .731* .113 1 .547显著性(双侧) .016 .756 .101x2N 10 10 10 10Pearson 相关性 .724* .398 .547 1显著性(双侧) .018 .254 .101x3N 10 10 10 10*. 在 0.05 水平(双侧)上显著相关。(2)(3)(4)(5)(6)模型汇总模型 R R 方 调整 R 方标准 估计的误差1 .898a .806 .708 23.44188a. 预测变量: (常量), x3,
7、x1, x2。Anovab模型 平方和 df 均方 F Sig.回归 13655.370 3 4551.790 8.283 .015a残差 3297.130 6 549.5221总计 16952.500 9a. 预测变量: (常量), x3, x1, x2。b. 因变量: y系数 a非标准化系数 标准系数模型 B 标准 误差 试用版 t Sig.(常量) -348.280 176.459 -1.974 .096x1 3.754 1.933 .385 1.942 .100x2 7.101 2.880 .535 2.465 .0491x3 12.447 10.569 .277 1.178 .284
8、a. 因变量: y1回归方程为 y= -348.280+3.754x1+7.101x2+12.447x32复相关系数R=0.898,决定系数为 0.806,拟合度较高。3方差分析表,F=8.283,P 值=0.0150.05 ,表明回归方程高度显著,说明 x1,x2,x3,整体上对y有高度显著的线性影响4回归系数的显著性检验x1工业总产值的P值=0.100X2农业总产值的 P值=0.049X3居民非产品支出的 P值=0.284在0.1的显著性水平上,x3未通过检验,应将其剔除掉输入移去的变量 b模型 输入的变量 移去的变量 方法1 x2, x1a . 输入a. 已输入所有请求的变量。b. 因变
9、量: y模型汇总模型 R R 方 调整 R 方标准 估计的误差1 .872a .761 .692 24.08112a. 预测变量: (常量), x2, x1。Anovab模型 平方和 df 均方 F Sig.回归 12893.199 2 6446.600 11.117 .007a残差 4059.301 7 579.9001总计 16952.500 9a. 预测变量: (常量), x2, x1。b. 因变量: y系数 a非标准化系数 标准系数模型 B 标准 误差 试用版 t Sig.(常量) -459.624 153.058 -3.003 .020x1 4.676 1.816 .479 2.57
10、5 .0371x2 8.971 2.468 .676 3.634 .008系数 a模型非标准化系数 标准系数t Sig.B 标准 误差 试用版1 (常量) -459.624 153.058 -3.003 .020x1 4.676 1.816 .479 2.575 .037x2 8.971 2.468 .676 3.634 .008a. 因变量: y1回归方程为 y= -459.624+4.676x1+8.971x22复相关系数R=0.872,决定系数为 0.761,由决定系数看回归方程接近高度相关3方差分析表,F=11.117,P 值=0.007,表明回归方程高度显著说明x1,x2,整体上对y
11、有高度显著的线性影响4回归系数的显著性检验x1工业总产值的P值=0.037X2农业总产值的 P值=0.008在0.05的显著性水平上,自变量x1,x2对y均有显著影响(7) 系数 a非标准化系数 标准系数 B 的 95.0% 置信区间模型 B 标准 误差 试用版 t Sig. 下限 上限(常量) -459.624 153.058 -3.003 .020 -821.547 -97.700x1 4.676 1.816 .479 2.575 .037 .381 8.9701x2 8.971 2.468 .676 3.634 .008 3.134 14.808a. 因变量: y( 8 ) 标准化回归方
12、程y=0.479x1+0.676x2(9) 把x01=75,x02=42带入y= -459.624+4.676x1+8.971x2得y=267.86y置信水平95%的区间估计为(211.09492 , 324.57506)y置信水平95%的近似区间估计为(219.6978 , 316.0222)E( y)置信水平95%的区间估计为(245.00541 ,290.66457)(10)由于X3的回归系数显著性检验未通过,所以居民非商品支出对货运总量影响不大,但是回归方程整体对数据拟合较好。3.12输入移去的变量 b模型 输入的变量 移去的变量 方法1 x2, x1a . 输入a. 已输入所有请求的
13、变量。b. 因变量: y模型汇总模型 R R 方 调整 R 方标准 估计的误差1 1.000a .999 .999 1189.51547a. 预测变量: (常量), x2, x1。Anovab模型 平方和 df 均方 F Sig.回归 1.809E10 2 9.046E9 6393.516 .000a残差 16979364.566 12 1414947.0471总计 1.811E10 14a. 预测变量: (常量), x2, x1。b. 因变量: y系数 a非标准化系数 标准系数 共线性统计量模型 B 标准 误差 试用版 t Sig. 容差 VIF(常量) 2914.646 1337.466
14、2.179 .050x1 .607 .299 .081 2.034 .065 .050 20.1961x2 1.709 .074 .921 23.175 .000 .050 20.196系数 a模型非标准化系数 标准系数t Sig.共线性统计量B 标准 误差 试用版 容差 VIF1 (常量) 2914.646 1337.466 2.179 .050x1 .607 .299 .081 2.034 .065 .050 20.196x2 1.709 .074 .921 23.175 .000 .050 20.196a. 因变量: yVIF的值都大于10,所以变量之间存在多重共线性共线性诊断 a方差比例模型 维数 特征值 条件索引 (常量) x1 x21 2.871 1.000 .01 .00 .002 .125 4.795 .26 .00 .0313 .004 27.651 .73 1.00 .97a. 因变量: y表中第三行x0(常数项),x1,x2的系数分别为0.73,1.00,0.97,说明x0(常数项),x1,x2之间存在多重共线性。回归方程为y=2914.646+0.607x1+1.709x2,第一产业的增加值x1的P值=0.065第二产业的增加值x2的P值=0.000 在0.05的显著性水平上x1对y无显著影响