1. 梯度下降法 (Gradient descent)梯度下降法,通常也叫最速下降法(steepest descent),基于这样一个事实:如果实值函数f(x)在点x处且有定义,那么函数f(x)在x点沿着负梯度(的反方向)下降最快。假设x是一个向量,考虑f(x)的泰勒展开式:如果想要函数值下降,则要。如果想要下降的最快,则需要取最小值,即,也就是说,此时x的变化方向(的方向)跟梯度的方向恰好相反。梯度法迭代公式:那么步长如何选取呢?的确,很难选择一个合适的固定值,如果较小,会收敛很慢;如果较大,可能有时候会跳过最优点,甚至导致函数值增大;因此,最好选择一个变化的步长,在离最优点较远的时候,步长大一点,离最优点较近的时候,步长小一点。 一个不错的选择是,于是牛顿迭代公式变为:,此时是一个固定值,称为学习率,通常取0.1,该方法称为固定学习率的梯度下降法。另外,我们也可以通过一维搜索来确定最优步长。1.1 梯度下降法的一般步骤:
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。