1、线性回归中的模型选择n 多元回归分析中,输入特征可能有许多,这些特征对模型都是必须的?n 否n 因为:n 预测准确性: 当回归模型中变量增多时,预测的偏差的低但方差高(过拟合)n 可解释性 :当回归模型中的预测子数目很多时,模型很难解释n 希望找到效果更明显的少数预测子1模型选择n 模型选择n 模型评估:用一些指标来衡量每个模型n 解析计算: AIC/BIC/MDLn 模拟计算:交叉验证 /bootstapn 模型搜索:在模型空间中搜索,找到在某个衡量指标下最优的模型n 模型空间不大:穷举搜索n 否则:贪心搜索n 前向 /后向 /双向逐步n 上述模型选择是离散的,亦称子集选择。另一类方法为连续
2、的收缩方法n 岭回归n Lasso2回顾:线性回归模型n 假定 不依赖于 x:n 其中 n 模型类型:参数模型n 损失:平方误差损失n 参数选择:训练数据上的最小平方误差(最小二乘,在高斯噪声假设下, = 极大似然 )n 计算:矩阵求逆 /QR分解n 模型选择: AIC/BIC3回顾:线性回归模型n 最小二乘参数估计的结果:n 点估计:n 偏差:n 方差:n 的无偏估计为:4回顾:线性回归模型n 预测结果:n 点估计:n 偏差:n 方差n 其中 是固有的,与参数的估计 无关。对不同的估计 ,得到的预测的方差不同( 不同)5子集选择n 只保留变量的一个子集,将其余变量从模型中删除(将其系数置为
3、0)n 当 p较小时,可穷尽搜索最佳子集n 对每个 ,其中 p为变量的总数目,找出容量为 k的子集,计算每个模型的得分( AIC/BIC)n 具体算法参考 Furnival&Wilson 1974n 容量较大的最佳子集不必包含容量较小的最佳子集6AIC: Akaike Information Criterionn AIC为模型 M测试误差的一个估计:n 其中 为在模型 M对应的训练集数据的对数似然函数,p为模型 M中特征的数目n 我们选择测试误差 最小的模型,等价于选择下述表达式最大的模型Akaike, Hirotugu (December 1974). “A new look at the
4、statistical model identification“. IEEE Transactions on Automatic Control 19 (6): 训练集上的拟合度 模型复杂度7AIC: Akaike Information Criterionn 当假设高斯噪声时,n 这样导出 AIC另一种表示:n 其中 为从一个低偏差估计的 MSE估计n 低偏差估计:复杂模型,即包括所有特征的模型8BIC : Bayesian Information Criterionn 类似 AIC,可用于极大对数似然实现的拟合中n 所以 n 最小化 BIC,等价于最大化 n 最小描述长度( MDL)的结论同 BIC Schwarz, G. 1978. Estimating the dimension of a model. Annals of Statistics, 6, 461-464. 9前向逐步回归n 从截距开始,每次增加一个特征n 计算增加特征后每个模型的 AIC,假设当前模型有 k个输入特征,则其 AIC为:n 选择 AIC最小的模型n 直到 AIC不再变小10