各种梯度下降算法及其变体的比较

作者: Dorts | 来源:发表于2016-06-14 20:01 被阅读161次

各种梯度下降算法及其变体的比较
浅谈神经网络中的梯度爆炸问题
深入浅出--梯度下降法及其实现
多层神经网络，从零开始——（九）、优化函数
总结那些常用的优化方法
局部搜索之梯度下降法
11 回归算法 - BGD、SGD、MBGD梯度下降
1.2梯度下降算法
笔记6-Deep learning and backpropag
机器学习——梯度下降、梯度下降的线性回归算法

http://blog.csdn.net/luo123n/article/details/48239963

Karpathy做了一个这几个方法在MNIST上性能的比较，其结论是：adagrad相比于sgd和momentum更加稳定，即不需要怎么调参。而精调的sgd和momentum系列方法无论是收敛速度还是precision都比adagrad要好一些。在精调参数下，一般Nesterov优于momentum优于sgd。而adagrad一方面不用怎么调参，另一方面其性能稳定优于其他方法。

最新Adam更新算法介绍
http://sebastianruder.com/optimizing-gradient-descent/

各种梯度下降算法及其变体的比较
http://blog.csdn.net/luo123n/article/details/48239963 Kar...
浅谈神经网络中的梯度爆炸问题
在神经网络中，梯度下降算法是使用非常广泛的优化算法。梯度下降算法的变体有好多，比如随机梯度下降（Stochasti...
深入浅出--梯度下降法及其实现
梯度下降的场景假设梯度梯度下降算法的数学解释梯度下降算法的实例梯度下降算法的实现Further reading 本...
多层神经网络，从零开始——（九）、优化函数
常用的优化算法有：随机梯度下降、带动量的随机梯度下降、AdaGrad算法、RMSProp算法、Adam算法，其中A...
总结那些常用的优化方法
知识点基础的损失函数优化算法为梯度下降算法SGD(根据每次参与计算的样本数又分为了普通梯度下降算法，随机梯度下降...
局部搜索之梯度下降法
在各种最优化算法中，梯度下降法是最常见的一种，在深度学习的训练中被广为使用。梯度下降法的场景假设梯度下降法的基本...
11 回归算法 - BGD、SGD、MBGD梯度下降
=== 名词解释 === BGD：批量 - 梯度下降算法SGD：随机 - 梯度下降算法MBGD：小批量...
1.2梯度下降算法
梯度下降算法梯度下降算法可将代价函数最小化。在梯度下降算法在不停地一点点改变和，试图通过这种改变使得变小，直到...
笔记6-Deep learning and backpropag
优化算法：梯度下降，反向传播（BP）是梯度下降实现方法之一。
机器学习——梯度下降、梯度下降的线性回归算法
一、梯度下降****梯度下降是一个用来求函数最小值的算法，我们将使用梯度下降算法来求出代价函数J(θo,θ1)的最...