精选优质文档-倾情为你奉上回归压缩以及通过Lasso选择变量由ROBERT TIBSHIRANIT著加拿大 多伦多大学1994年1月接收 1995年1月修订摘要我们提出了一个估计线性模型的新方法。Lasso最小化残差平方和使得系数绝对值之和小于一个常数。由于这种约束的性质,它倾向于产生一些恰好为0的系数,从而给出了解释模型。我们的模拟研究表明,Lasso具有一些子集选择和岭回归的良好特性。它产生像子集选择一样的可以解释的模型并且展示了岭回归的稳定性。Lasso与Donoho和Johnstone近期提出的关于自适函数估计的工作有着有趣的联系。Lasso想法是相当广泛的,并且可以运用在各种统计模型中:本文简要介绍了广义的回归模型和基于树的模型的扩展。关键词:二次规划;回归;压缩;子集选择1.引言考虑一般的回归情况:我们有数据,和分别是第组观测的自变量和因变量值。普通最小二乘估计(OLS)是通过残差平方和最小化得到的。有两个原因来解释为什么数据分析常常不适合用OLS估计。第一个原因是预测精度:OLS估