精选优质文档-倾情为你奉上通过LASSO回归压缩和选择RobertTibshirani加拿大多伦多大学【1994年1月收到,1995年1月修订】【摘要】本文提出一个线性模型估计的新方法。LASSO最小化残差平方和使得系数绝对值之和小于一个常数。由于此约束的性质倾向于产生一些为0的系数,从而给出了解释模型。我们的仿真研究表明,LASSO具有一些子集选择和岭回归的有利特性。它产生了例如子集选择的解释模型并展示了岭回归的稳定性。在最近的工作中关于多诺霍和约翰斯通的自适应函数估计也有一些有趣的关系。LASSO思想是相当广泛的并可用于各种统计模型:本文简要介绍了广义的回归模型和基于树的模型的扩展。关键词:二次规划;回归;压缩;子集选择1.引言考虑通常的回归情况:已知数据其中和分别是观察数据的第个回归因子和响应量。通过最小化残差平方的误差得到普通最小二乘法(OLS)估计。数据分析师经常不满意OLS估计值有两个原因。第一是预测精度:OLS估计经常是低偏压高方差;预测精度有时可以通过压缩或设置一些系数为0进行改善。通过这样,牺牲一些偏压,减少预测值的方差,