深度学习中的优化算法

深度学习中的优化算法

作者: 小蛋子 | 来源:发表于2020-07-08 15:48 被阅读0次

深度学习最常用的学习算法：Adam优化算法
机器学习之优化算法学习总结
吴恩达深度学习复习: Optimization 最优化算法
深度学习中的优化算法
深度学习矩阵乘法优化算法Strassen
优化算法总结
优化问题记录
深度学习目标检测部署套路
深度学习中的各种优化算法
Maple中的深度学习优化算法

本文尝试通过一个框架来梳理深度学习中的常用优化算法，即从SGD到NAdam。

整体框架

我们设待学习参数为 w , 目标函数为 f(w)，初始学习率为α。第t时刻的梯度为g_t, 一阶动量为m_t, 二阶动量为v_t,更新步长为 n_t ，则有：

SGD

首先看看SGD，在SGD中没有动量，即m_t = g_t, v_t = I 。
所以n_t = α * g_t
SGD的问题是所以方向所有时刻使用固定的学习率，这就导致收敛慢；并且容易在沟壑的两边来回震荡；有时候会陷入局部最优点。

SGD with Momentum

为了解决sgd震荡问题，sgdm认为加入惯性（一阶动量），让他下坡时下的更快，改变方向变难，这样加速训练减少震荡。其中一阶动量m_t的定义为：

一阶动量是各个时刻梯度方向的指数移动平均值，约等于最近

个时刻的梯度向量和的平均值。
通常β取值在0.9-0.999之间。这样，梯度更新就不只与当前梯度有关，还与之前累积的梯度有关，这样就可以减少震荡加速下降了。

PS：指数移动平均值的概念在优化算法中会经常被提起，在本文最后给出这个概念的相关知识。

SGD with Nesterov Acceleration

SGD有一个问题是会陷入局部最优点，然后在局部最优附近来回震荡。SGD和SGDM中我们都是站在“当下”来判断未来，那何不“多走”一步，用“未来”帮助我们判断“未来”。
在SGDM中当前的更新不光由当前梯度决定，那我们可以进一步改进，即当前的梯度再进一步，用累计的梯度往前走一步，然后在决定当前的梯度方向，即：

用累计动量计算走一步后的梯度来决定当前的梯度更新。

Adagrad

上面的改进都是针对SGD的梯度进行改进，而SGD中所有时刻的学习率是固定的，导致下降缓慢的问题还是没有得到改善，同时，参数在更新时更新频率是不同的，典型的场景如Embedding，我们希望更新频繁的参数在每次更新时改动小一点而不至于忘记之前学到的，对于不频繁的，我们更希望更新时改动大些，尽可能多学到一些。
而如何度量更新频率呢？此时就要用到二阶动量了，即：

在回头看一下我们的更新梯度：

此时，本质上是对学习速率用梯度的累计做约束，动态自适应调整学习率。
在参数更新前期，g_t小，放大学习率，在后期，累计大，缩小学习率，即更新的越频繁学习率就越小。
但是由于v_t是单调递增的，所以，这也导致了一个问题：学习率可能会被缩小至0，而导致提前终止学习。

RMSProp

为了解决Adagrad提前终止学习的问题，我们对二阶动量的累计改为最近一段时间内的二阶动量累计，即指数移动平均，这样就可以避免提前终止学习了。

Adam

SGDM引入一阶动量m_t，RMSProp引入二阶动量，那集二者大成，就是我们的Adam了，即Adaptive + Momentum
其中：

β_1通常取0.9，β_2通常取0.99
而在迭代初期，m_t 和v_t很容易朝着0方向走，所以一般会引入一个bias correction（偏置纠正）：

PS：一般的实现中都是会加偏置纠正，但也有人不加，比如Bert中的Adam。- - !

NAdam

而Adam还漏掉了Nesterov Acceleration，那在Adam的基础上引入Nesterov即是NAdam。

最后放两张非常直观的图

指数移动平均

指数移动平均（Exponential Moving Average）也叫权重移动平均（Weighted Moving Average），是一种给予近期数据更高权重的平均方法。

全局平均值求解：

EMA：

当

时，两种平均值的计算相等，而此时对应的n为

即EMA是过去1 / 1-β 个时刻的近似均值，n越大越近似。
将v_t展开，

其中

带人后

即1/1 - β之前时刻的值都被衰减了约1/e 倍。

ref:
https://zhuanlan.zhihu.com/p/68748778
https://zhuanlan.zhihu.com/p/32230623
https://zhuanlan.zhihu.com/p/32626442

相关文章

深度学习最常用的学习算法：Adam优化算法
www.dlworld.cn 听说你了解深度学习最常用的学习算法：Adam优化算法？-深度学习世界深度学习常常需要...
机器学习之优化算法学习总结
优化算法演化历程机器学习和深度学习中使用到的优化算法的演化历程如下：SGD --> Momentum --> N...
吴恩达深度学习复习: Optimization 最优化算法
吴恩达深度学习复习: Optimization 最优化算法 Jog My Mind 最优化算法都有哪些？梯度下降...
深度学习中的优化算法
本文尝试通过一个框架来梳理深度学习中的常用优化算法，即从SGD到NAdam。整体框架我们设待学习参数为 w ,...
深度学习矩阵乘法优化算法Strassen
上一篇介绍了深度学习中卷积的优化算法，这一篇来介绍一下矩阵乘法的优化算法——Strassen算法。我一直觉得Str...
优化算法总结
简介本文介绍一下机器学习和深度学习中常用的优化算法和优化器以及一些其他我知道的优化算法,部分算法我也没有搞懂,就...
优化问题记录
优化问题可选解： optimizer优化算法总结 - CSDN博客深度学习最全优化方法总结比较（SGD，Adag...
深度学习目标检测部署套路
深度学习视觉目标检测整体思路一、先搭建视觉目标检测算法二、根据实际的硬件平台和实现效果来优化算法。深度学习...
深度学习中的各种优化算法
优化算法的目的是为了优化损失函数，损失函数衡量的是模型与数据的偏离程度，主要思想是计算损失函数关于参数的导数（多个...
Maple中的深度学习优化算法

网友评论

本文标题：深度学习中的优化算法

本文链接：https://www.haomeiwen.com/subject/gvfccktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|深度学习中的优化算法|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！