1、3.1 +即y=x+基本假定(1)解释变量x1,x2.,xp是确定性变量,不是随机变量,且要求rank(X)=p+1n,表明设计矩阵X中自变量列之间不相关,样本量的个数应大于解释变量的个数(2) 随机误差项具有零均值和等方差,即高斯马尔柯夫条件 (3) 对于多元线性回归的正态分布假定条件的矩阵模型为 N(0,) 随即向量yN(X)3.2 当存在时,回归参数的最小二乘估计为,要求出回归参数,即要求是一个非奇异矩阵,所以可逆矩阵为p+1阶的满秩矩阵,又根据两个矩阵乘积的秩不大于每一因子的秩rank(X)p+1,而X为n(p+1)阶矩阵,于是应有np+1结论说明,要想用最小二乘法估计多元线性回归模型
2、的未知参数,样本量n必须大于模型自变量p的个数。3.3 3.4不能断定这个方程一定很理想,因为样本决定系数与回归方程中自变量的数目以及样本量n有关,当样本量个数n太小,而自变量又较多,使样本量与自变量的个数接近时,易接近1,其中隐藏一些虚假成分。3.5当接受H时,认定在给定的显著性水平下,自变量x1,x2,xp对因变量y无显著影响,于是通过x1,x2,xp去推断y也就无多大意义,在这种情况下,一方面可能这个问题本来应该用非线性模型去描述,而误用了线性模型,使得自变量对因变量无显著影响;另一方面可能是在考虑自变量时,把影响因变量y的自变量漏掉了,可以重新考虑建模问题。 当拒绝H时,我们也不能过于
3、相信这个检验,认为这个回归模型已经完美了,当拒绝H时,我们只能认为这个模型在一定程度上说明了自变量x1,x2,xp与自变量y的线性关系,这时仍不能排除排除我们漏掉了一些重要的自变量。3.6中心化经验回归方程的常数项为0,回归方程只包含p个参数估计值比一般的经验回归方程减少了一个未知参数,在变量较多时,减少一个未知参数,计算的工作量会减少许多,对手工计算尤为重要。 在用多元线性回归方程描述某种经济现象时,由于自变量所用的单位大都不同,数据的大小差异也往往很大,这就不利于在同一标准上进行比较,为了消除量纲不同和数量级的差异带来的影响,就需要将样本数据标准化处理,然后用最小二乘法估计未知参数,求得标
4、准化回归系数。3.7对进行中心化处理得再将等式除以因变量的样本标准差则有=所以3.8 (为相关阵()第i行,第j列的代数余子式)=3.9 F=小于1,F与一一对应,所以F与等价3.10 证得3.11 (1)相关性yx1x2x3yPearson 相关性1.556.731*.724*显著性(双侧).095.016.018N10101010x1Pearson 相关性.5561.113.398显著性(双侧).095.756.254N10101010x2Pearson 相关性.731*.1131.547显著性(双侧).016.756.101N10101010x3Pearson 相关性.724*.398.
5、5471显著性(双侧).018.254.101N10101010*. 在 0.05 水平(双侧)上显著相关。(2)(3)(4)(5)(6)模型汇总模型RR 方调整 R 方标准 估计的误差1.898a.806.70823.44188a. 预测变量: (常量), x3, x1, x2。Anovab模型平方和df均方FSig.1回归13655.37034551.7908.283.015a残差3297.1306549.522总计16952.5009a. 预测变量: (常量), x3, x1, x2。b. 因变量: y系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)-348.2801
6、76.459-1.974.096x13.7541.933.3851.942.100x27.1012.880.5352.465.049x312.44710.569.2771.178.284a. 因变量: y1回归方程为 y= -348.280+3.754x1+7.101x2+12.447x32复相关系数R=0.898,决定系数为0.806,拟合度较高。3方差分析表,F=8.283,P值=0.0150.05,表明回归方程高度显著,说明x1,x2,x3,整体上对y有高度显著的线性影响4回归系数的显著性检验x1工业总产值的P值=0.100 X2农业总产值的P值=0.049 X3居民非产品支出的P值=0
7、.284在0.1的显著性水平上,x3未通过检验,应将其剔除掉输入移去的变量b模型输入的变量移去的变量方法1x2, x1a.输入a. 已输入所有请求的变量。b. 因变量: y模型汇总模型RR 方调整 R 方标准 估计的误差1.872a.761.69224.08112a. 预测变量: (常量), x2, x1。Anovab模型平方和df均方FSig.1回归12893.19926446.60011.117.007a残差4059.3017579.900总计16952.5009a. 预测变量: (常量), x2, x1。b. 因变量: y系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量
8、)-459.624153.058-3.003.020x14.6761.816.4792.575.037x28.9712.468.6763.634.008a. 因变量: y1回归方程为 y= -459.624+4.676x1+8.971x22复相关系数R=0.872,决定系数为0.761,由决定系数看回归方程接近高度相关3方差分析表,F=11.117,P值=0.007,表明回归方程高度显著说明x1,x2,整体上对y有高度显著的线性影响4回归系数的显著性检验x1工业总产值的P值=0.037 X2农业总产值的P值=0.008 在0.05的显著性水平上,自变量x1,x2对y均有显著影响(7) 系数a模
9、型非标准化系数标准系数tSig.B 的 95.0% 置信区间B标准 误差试用版下限上限1(常量)-459.624153.058-3.003.020-821.547-97.700x14.6761.816.4792.575.037.3818.970x28.9712.468.6763.634.0083.13414.808a. 因变量: y ( 8 ) 标准化回归方程y=0.479x1+0.676x2(9) 把x01=75,x02=42带入y= -459.624+4.676x1+8.971x2得y=267.86y置信水平95%的区间估计为(211.09492 , 324.57506)y置信水平95%的
10、近似区间估计为(219.6978 , 316.0222)E(y)置信水平95%的区间估计为(245.00541 ,290.66457)(10)由于X3的回归系数显著性检验未通过,所以居民非商品支出对货运总量影响不大,但是回归方程整体对数据拟合较好。3.12输入移去的变量b模型输入的变量移去的变量方法1x2, x1a.输入a. 已输入所有请求的变量。b. 因变量: y模型汇总模型RR 方调整 R 方标准 估计的误差11.000a.999.9991189.51547a. 预测变量: (常量), x2, x1。Anovab模型平方和df均方FSig.1回归1.809E1029.046E96393.5
11、16.000a残差16979364.566121414947.047总计1.811E1014a. 预测变量: (常量), x2, x1。b. 因变量: y系数a模型非标准化系数标准系数tSig.共线性统计量B标准 误差试用版容差VIF1(常量)2914.6461337.4662.179.050x1.607.299.0812.034.065.05020.196x21.709.074.92123.175.000.05020.196a. 因变量: yVIF的值都大于10,所以变量之间存在多重共线性共线性诊断a模型维数特征值条件索引方差比例(常量)x1x2 112.8711.000.01.00.002.1254.795.26.00.033.00427.651.731.00.97a. 因变量: y表中第三行x0(常数项),x1,x2的系数分别为0.73,1.00,0.97,说明x0(常数项),x1,x2之间存在多重共线性。回归方程为y=2914.646+0.607x1+1.709x2,第一产业的增加值x1的P值=0.065第二产业的增加值x2的P值=0.000 在0.05的显著性水平上x1对y无显著影响