美文网首页秋招-算法
梯度下降--学习率

梯度下降--学习率

作者: 0过把火0 | 来源:发表于2017-11-17 20:50 被阅读50次

文中截图均来自Andrew Ng 视频,文字总结部分全为原创。

如何得知我们的梯度下降算法是在正常工作的

梯度下降算法收敛所需要的迭代次数根据模型的不同而不同,我们不能提前预知。一般情况下,可以画出迭代次数和代价函数的图来观测算法在何时收敛。如下图:


从图中可以看出迭代400次之后,minJ()的值基本保持不变了,因此大致在400次左右进行收敛。这样的图意味着梯度下降是正常工作的。

但是如果出现以下图,这表明梯度下降没有正常工作:


上图中表示的意思是迭代次数的增加,代价函数反而变大,导致这一现象的原因可能是学习率过大,出现了以下情况(下图是Θ与J(Θ)的关系图,横坐标是Θ)。下图所显示的就是学习率过大,导致发散。


上图出现的情况可以使用降低学习率来缓解这一问题。

判断收敛

1、大多情况下,可以从图中看出迭代多少次后J(Θ)趋于稳定,就表明此刻收敛。
2、此外,还有一些自动测试是否收敛的方法,例如将代价函数的变化值与某个阈值进行比较(例如0.001),但通常还是观察图比较好。因为很难确定那样一个阈值。
三、学习率大小的确定
通常,学习率过高可能导致发散,过小则会导致迭代次数太多。可以多次尝试一些学习率,如:0.01、0.03、0.1、0.3、1、3、10

我的博客 : https://NingSM.github.io

转载请注明原址,谢谢

相关文章

  • 2019-03-24

    学习率的调整 从梯度下降算法的角度来说,通过选择合适的学习率,可以使梯度下降法得到更好的性能。学习率,即参数到达最...

  • 梯度下降--学习率

    文中截图均来自Andrew Ng 视频,文字总结部分全为原创。 如何得知我们的梯度下降算法是在正常工作的 梯度下降...

  • 深度学习优化算法

    基于梯度下降法 Adam 算法和传统的随机梯度下降不同。随机梯度下降保持单一的学习率(即 alpha)更新所有的权...

  • 数学

    方差 softmax 梯度下降算法 交叉熵 霍夫曼树 学习率

  • 神经网络超参数选择

    1. 学习率 1.1 是什么 深度学习模型通常由随机梯度下降算法进行训练。随机梯度下降算法有许多变形:例如 Ada...

  • 正则化

    BN: 1、梯度好(避免梯度消失,梯度弥散问题)2、使损失函数更加平滑,使用更大学习率,梯度下降更快 BN理解BN...

  • Lecture 1 - Regression

    梯度下降中学习率为负数,因为如果是负梯度(下降)则横坐标需右移,正梯度(上升)横坐标需左移. 正则化将特征前加入一...

  • Logistic Regression

    设置学习率alpha很重要,感觉随机梯度下降不容易收敛。

  • (二十三)梯度下降-python数据分析与机器学习实战(学习笔记

    文章原创,最近更新:2018-05-23 1.梯度下降原理2.梯度下降方法对比3.学习率对结果的影响课程来源: ...

  • 2018-12-06梯度下降 - 学习率

    如何选择学习率以确保梯度下降工作正常? 一般有两种办法: 调试梯度下降。 在x轴上绘制具有迭代次数的图。 绘制成本...

网友评论

    本文标题:梯度下降--学习率

    本文链接:https://www.haomeiwen.com/subject/kwhsvxtx.html