《李宏毅·机器学习》读书笔记（三）Gradient Descen

《李宏毅·机器学习》读书笔记（三）Gradient Descen

作者: Spareribs | 来源:发表于2019-02-25 23:55 被阅读93次

梯度下降是很常见的，但是这个演算过程看不太懂，再深入看笔记之前，再整理一波思路：

这是个demo，还需要修改~~~~

image.png

主要是看其中的2篇文章：

目前还没有整理出比较好的文档，明天继续看~~

SGD指mini-batch gradient descent：SGD就是每一次迭代计算mini-batch的梯度，然后对参数进行更新。
Momentum：momentum是模拟物理里动量的概念，积累之前的动量来替代真正的梯度。
Nesterov：nesterov项在梯度更新时做一个校正，避免前进太快，同时提高灵敏度。
Adagrad：Adagrad其实是对学习率进行了一个约束。
Adadelta：Adadelta是对Adagrad的扩展，最初方案依然是对学习率进行自适应约束，但是进行了计算上的简化；Adagrad会累加之前所有的梯度平方，而Adadelta只累加固定大小的项，并且也不直接存储这些项，仅仅是近似计算对应的平均值。
RMSprop：RMSprop可以算作Adadelta的一个特例
Adam：Adam(Adaptive Moment Estimation)本质上是带有动量项的RMSprop，它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率；Adam的优点主要在于经过偏置校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳。

相关文章

网友评论

本文标题：《李宏毅·机器学习》读书笔记（三）Gradient Descen

本文链接：https://www.haomeiwen.com/subject/siqoyqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

数据蛙数据分析每周作业

机器学习专题

热点阅读

数据蛙数据分析每周作业

机器学习专题

关于我们|服务条款|联系我们|《李宏毅·机器学习》读书笔记（三）Gradient Descen|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！