深度学习优化算法（2）—— Momentum、AdaGrad、R

作者: LaLa_2539 | 来源:发表于2018-10-26 14:52 被阅读0次

深度学习优化算法（2）—— Momentum、AdaGrad、R
机器学习之优化算法学习总结
常用的优化算法：SGD、Momentum、AdaGrad、RMS
优化算法进阶；word2vec；词嵌入进阶 2020-02-25
2015-8-1 优化
Optimizer优化器
优化算法
优化方法总结
Task07
多层神经网络，从零开始——（九）、优化函数

算法概述

动量法：梯度转化为速度
AdaGrad：每个参数反比于历史梯度平方总和的平方根
RMSProp：AdaGrad的升级（将梯度积累替换为滑动平均）
Adadelta：AdaGrad的升级（在RMSProp的基础上维护了一个额外的状态变量，用于替换学习率参数）
Adam：动量 + RMSProp + 偏差修正

算法可视化

深度学习各种算法可视化1.gif

深度学习各种算法可视化2.gif

动量算法（Momentum）

使用意义（梯度下降存在问题）

在每次迭代中，梯度下降根据自变量当前位置，沿着当前位置的梯度方向更新自变量。然而，自变量的迭代方向仅仅取决于自变量当前位置可能会带来一定的问题

梯度下降的问题

图片.png

算法介绍

动量法几乎总是比标准的梯度下降法速度更快，算法的主要思想是计算梯度的指数加权平均，然后使用这个梯度来更新权重（上图中，你希望纵轴可以学习慢一点，不希望出现这些震荡，横轴上，你希望加快学习速度）

13228477-524615b4bedb2017.png

参数选择（一般 $\alpha = 0.9$ ）

上述公式说明了带有动量的梯度下降法是如何更新参数的，不再单纯的使用梯度，而是使用梯度的指数加权平均，式中 $\epsilon$ 为学习率， $\alpha$ 为动量参数， $\alpha$ 最常用的取值为 $0.9$ ，意味着计算前 $10$ 次迭代的梯度的平均值，而且 $\alpha = 0.9$ 效果很好，是非常稳健的参数值

AdaGrad 算法（每个变量有自己的节奏）

算法介绍

AdaGrad算法独立地适应所有模型参数的学习率，缩放每个参数反比于其所有梯度历史平方值总和的平方根，学习率单调递减，训练后期学习率非常小

image.png

算法特点（适用于凸函数，但不适用于非凸函数）

如果目标函数有关自变量中某个元素的偏导数一直都较大，那么该元素的学习率（ $\frac{\epsilon}{\delta + \sqrt{r} }$ ）将下降较快（在最后更新参数向量时除以一个很大的数字，所以会降低这个维度方向上的训练进度，这个方向的梯度可能是震荡的，希望震荡小一点）；反之，某个元素的偏导数一直较小，则该元素的学习率下降较慢（更新参数向量时除以一个很小的数字，从而加速了在小梯度维度上的学习速度）

image.png

上图可知，在 $b$ 方向上的梯度要大于在 $w$ 方向上的梯度，AdaGrad 算法使得 $b$ 的学习率下降较快，在 $b$ 方向上的变化相对平缓

算法缺陷

由于 $r$ 一直在累加按元素平方的梯度，自变量中每个元素的学习率在迭代过程中一直降低导致 有效学习率过早和过量的减小，可能较难找到一个有用的解
不适用于非凸函数，当到达一个局部极值点时，会困在这里，使得训练过程无法再进行下去

RMSProp 算法

算法介绍

RMSProp 算法是针对 Adagrad 算法的缺陷进行修改，改变梯度积累为指数加权移动平均
Adagrad 算法旨在应用于凸问题^[1]时快速收敛
RMSProp 算法使用指数衰减平均以丢弃遥远过去的历史

image.png

算法特点

RMSProp 的状态变量可以看作是最近 $\frac{1}{1 - \rho}$ 个时间步的小批量随机梯度平方项的加权平均，自变量每个元素的学习率在迭代过程中不再一直降低（如此一来，一直具有较大梯度的元素的学习率依然下降较快，但不会无止境的下降，致使没办法得到局部最优解）

Adadelta 算法

算法介绍

Adadelta 算法也同RMSProp 算法一样，使用了按元素平方的指数加权移动平均变量
$r \leftarrow \rho r + (1 - \rho)g \bigodot g$ 但除此之外，Adadelta 算法还维护一个额外的状态变量 $\Delta \theta$ ，其同样在初始化时被初始为 $0$ ，我们使用它来计算自变量的变化量
$\Delta \theta = -\sqrt{\frac{\Delta \theta + \epsilon}{r + \epsilon}} \bigodot \cal g$
使用 $\Delta \theta$ 来记录自变量变化量 $g$ 按元素平方的指数加权移动平均，用于下次计算
$\Delta \theta \leftarrow \rho \Delta \theta + (1 - \rho)g \bigodot g$
最后接着更新自变量
$\theta \leftarrow \theta + \Delta \theta$

image.png

算法特点

可以看出，Adadelta 算法和RMSProp 算法的主要差别在于使用了 $\sqrt{\Delta \theta}$ 来代替了超参数

Adam 算法

算法介绍

在 Adam 算法中，动量直接并入了梯度一阶矩（指数加权）的估计，将动量加入RMSProp最直观的的方法是将动量应用于缩放后的梯度。其次， Adam 算法包括偏置修正，修正从原点初始化的一阶矩（动量项）和（非中心的）二阶矩的估计，因此在训练初期没有很高的偏置。Adam 算法通常被认为对超参数的选择相当鲁棒，尽管学习率有时需要从建议的默认修改

image.png

算法特点

Adam 算法可以看作是 动量法（Momentum） 和 RMSProp 算法的结合，使用了动量变量 $s$
$s \leftarrow \rho_1s + (1 - \rho_1)g$
和RMSProp中小批量随机梯度逐元素平方的指数加权移动平均变量 $r$
$r \leftarrow \rho_2 r + (1 - \rho_2)g \bigodot g$
在时间步 $0$ 将它们初始化为 $0$ ，另外还加入了偏差修正

参数选取
学习率 $\epsilon$ 建议选取 $\epsilon = 1e^{-3} \ \ \text{or} \ \ \ 5e^{-4}$
给定超参数 $\rho_1$ 建议选取 $\rho_1 = 0.9$
给定超参数 $\rho_2$ 建议选取 $\rho_2 = 0.999$

凸、非凸问题：凸问题指的是顺着梯度方向走到底一定是最优解（多数为传统机器学习问题）；非凸问题指的是顺着梯度方向走到底只能保证是局部最优解而非全局最优解（大部分深度学习问题都是非凸的） ↩

深度学习优化算法（2）—— Momentum、AdaGrad、R
算法概述动量法：梯度转化为速度 AdaGrad：每个参数反比于历史梯度平方总和的平方根 RMSProp：AdaG...
机器学习之优化算法学习总结
优化算法演化历程机器学习和深度学习中使用到的优化算法的演化历程如下：SGD --> Momentum --> N...
常用的优化算法：SGD、Momentum、AdaGrad、RMS
1.SGD 梯度下降法分为三种： BGD(Batch Gradient Descent，批量梯度下降)一次迭代使用...
优化算法进阶；word2vec；词嵌入进阶 2020-02-25
优化算法进阶介绍更高级的优化算法 Momentum epoch 20, x1 -0.943467, x2 -0....
2015-8-1 优化
【Chainer下各种优化算法(SGD/AdaGrad/RMSprop/ADAM/...)比较】《Chainer ...
Optimizer优化器
1、Adagrad优化算法（https://www.zhihu.com/question/453599361/an...
优化算法
优化算法框架优化算法经历了SGD->SGDM->NAG->AdaGrad->AdaDelta->Adam->Na...
优化方法总结
SGD，Momentum，AdaGrad，RMSProp，Adam 1. SGD Batch Gradient D...
Task07
一优化算法进阶一个常用优化算法AdaDelta算法也针对AdaGrad算法在迭代后期可能较难找到有用解的问题做...
多层神经网络，从零开始——（九）、优化函数
常用的优化算法有：随机梯度下降、带动量的随机梯度下降、AdaGrad算法、RMSProp算法、Adam算法，其中A...

深度学习优化算法（2）—— Momentum、AdaGrad、R

算法概述

算法可视化

动量算法（Momentum）

梯度下降的问题

AdaGrad 算法（每个变量有自己的节奏）

RMSProp 算法

Adadelta 算法

Adam 算法

相关文章

深度学习优化算法（2）—— Momentum、AdaGrad、R

机器学习之优化算法学习总结

常用的优化算法：SGD、Momentum、AdaGrad、RMS

优化算法进阶；word2vec；词嵌入进阶 2020-02-25

2015-8-1 优化

Optimizer优化器

优化算法

优化方法总结

Task07

多层神经网络，从零开始——（九）、优化函数

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读