美文网首页
2018-12-05梯度下降-II参数的研究

2018-12-05梯度下降-II参数的研究

作者: 奈何qiao | 来源:发表于2018-12-05 22:25 被阅读0次

    重复直到收敛:

    参数更新 研究导数部分带来的影响

    \theta _{1} 位于最小值的右侧,位于\theta _{1} 的切线斜率(即导数部分)大于0,使得等式左边新\theta _{1} 减小,J减小,接近最小值J;

    \theta _{1} 位于最小值的左侧,位于\theta _{1} 的切线斜率(即导数部分)小于0,使得等式左边新\theta _{1} 增大,J减少,接近最小值J;

    综上所述,不管\frac{dJ(\theta _{1} )}{d\theta _{1} } 的大小为正为负,J都会收敛至他的最小值。

    另外,我们应该调整参数α以确保梯度下降算法在合理的时间内收敛。 没有收敛或花费太多时间来获得最小值都意味着步长α是错误的。

    \theta _{1} 为局部最小值的时候,切线斜率为0,等式左边的新\theta _{1} 保持不变。

    导数最小值

    收敛的直观表现是\frac{dJ(\theta _{1} )}{d\theta _{1} } 接近于0。

    研究α参数带来的影响

    当α过小时,梯度下降过慢,每一次的变化幅度太小。

    当α过大时,梯度下降可能会越过最小值(产生偏离)。这会导致没有收敛或者偏离。

    α固定下的收敛

    梯度下降会收敛到一个局部最小值,即使是学习效率α固定的情况下。

    当J接近最小值时,梯度下降会自动采用更小的步伐,下降的幅度自动变小,因为导数(斜率)正在慢慢变小。所以不需要随着时间增大α。

    相关文章

      网友评论

          本文标题:2018-12-05梯度下降-II参数的研究

          本文链接:https://www.haomeiwen.com/subject/tgqgcqtx.html