adagrad原理

作者: hooly | 来源:发表于2018-01-25 16:49 被阅读5078次

image.png

在看到李宏毅老师讲gradient decent的时候，讲到Adagrad方法，这里记录一下。

Adagrad是解决不同参数应该使用不同的更新速率的问题。Adagrad自适应地为各个参数分配不同学习率的算法。其公式如下：

image.png

但是我们发现一个现象，本来应该是随着gradient的增大，我们的学习率是希望增大的，也就是图中的gt；但是与此同时随着gradient的增大，我们的分母是在逐渐增大，也就对整体学习率是减少的，这是为什么呢？

这是因为随着我们更新次数的增大，我们是希望我们的学习率越来越慢。因为我们认为在学习率的最初阶段，我们是距离损失函数最优解很远的，随着更新的次数的增多，我们认为越来越接近最优解，于是学习速率也随之变慢。

网友评论

本文标题：adagrad原理

本文链接：https://www.haomeiwen.com/subject/aknvaxtx.html

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！