自变量选择与逐步回归一、全模型和选模型设研究某一实际问题,涉及对因变量有影响的因素共有m个,由因变量y和m个自变量构成的回归模型称为全模型。如果从可供选择的m个变量中选出p个,由选出的p个自变量组成的回归模型称为选模型。二、自变量选择对预测的影响自变量选择对预测的影响可以分为两种情况考虑,第一种情况是全模型正确而误用了选模型;第二种情况是选模型正确而无用了全模型。以下是这两种情况对回归的影响。1、全模型正确而误用选模型的情况性质1,在与的相关系数不全为0时,选模型回归系数的最小二乘估计是全模型相应参数的有偏估计,即()性质2,选模型的预测是有偏的。性质3,选模型的参数估计有较小的方差。性质4,选模型的预测残差有较小的方差。性质5,选模型的均方误差比全模型预测的方差更小。性质1和性质2表明,当全模型正确时,而舍去了m-p个自变量,用剩下的p个自变量去建立选模型,参数估计值是全模型相应参数的有偏估计,用其做预测,预测值也是有偏的。这是误用选模型产生的弊端。性质3和性质4表明,用选模型去作预测,残差的方差比用全模型去作预测的方差小,尽管用选