美文网首页
AdaBelief-更稳定的优化器

AdaBelief-更稳定的优化器

作者: 小蛋子 | 来源:发表于2020-11-14 12:48 被阅读0次

更好的阅读体验请跳转至AdaBelief-更稳定的优化器

对Adam 进行改进的算法有很多,今天介绍一篇改动很小改动小效果不错的-<code>AdaBelief</code>。

warmup

在bert中第一次见到warmup的使用,而warmup的作用是让训练更稳定,最后收敛的更好。而warmup有效的一个原因是减缓训练初期模型对mini-batch的提前过拟合,同时,在训练初期,由于loss较大,模型还没得到多少训练,不同step 之间的梯度方差较大,而此时如果使用较大的步长更新,则会朝错误的方向走一大步,而随后的模型不断得到训练,对应的梯度不断减小,同时一般我们会采用不断衰减的学习率,这些都导致随着模型的训练,更新的步长不断变小,而前期朝错误方向的一大步更新可能需要后期很多步的更新才能弥补,有时候可能甚至无法弥补,这就导致模型最后收敛在一个不怎么好的局部最优点,而如果在前期时抑制可能出现的大步更新,保持模型保持“小步走”,则可以避免模型在错误方向上的大步更新,而由模型的不断训练调整会正确的轨道。
所以一个重要的点是梯度更新方差大时(不同time step),我们需要谨慎行事,防止出现大错步,而方差小时,我们可以大胆一些,因为此时方向上基本一致,所以可以大踏步的往前走。

修改Adam

现在让我们来回顾一下Adam更新公式:

\theta_t = \theta_{t-1} - \alpha \frac{m_t}{ \sqrt{v_t}}

其中m_t是对g_t的预测,v_t是对g_t^2的预测,对应的更新方向为\frac{m_t}{\sqrt{v_t}}.
m_t除了是对g_t的预测外,还可以看做是最近一段时间内(大概为\frac{1}{1-\alpha})梯度的均值,而为了表征当前梯度g_t所处区域的方差,我们可以使用belief = \left | g_t - m_t\right |,即当前梯度距最近一段区域梯度均值的距离。在结合Adam的更新公式,我们可以用s_t = (g_t - m_t) ^ 2 来代替v_t,即在方差大的区域更新时减小步长,而在方差小的区域,快步大走,最后的更新公式为:

\theta_t = \theta_{t-1} - \alpha \frac{m_t}{ \sqrt{s_t}}

此时的更新方向为\frac{m_t}{\sqrt{s_t}}.
这就是AdaBelief Optimizer的核心思想。具体的更新流程与Adam只需要修改一小部分即可:

opt.jpg

优点

作者在论文中提到AdaBelief能媲美Adam的收敛速度,同时达到SGD的准确率。我做了几个实验,由于是在小数据集上fine-tuning,所以可能不如在大数据集上从头训练效果明显。不过依然可以得到:
1.loss上相对Adam更平稳
2.收敛上比Adam稍快
3.性能上比Adam更好

loss 对比图


loss.png

accuracy对比图


acc.png

实验代码:classification_adabelief

总结

本文介绍一个最新的优化器AdaBelief,并从与论文不同角度解释其主要作用,在实际工作中可以尝试使用AdaBelief,也许能得到比Adam收敛更快性能更好的结果。

相关文章

  • AdaBelief-更稳定的优化器

    更好的阅读体验请跳转至AdaBelief-更稳定的优化器[https://xv44586.github.io/20...

  • 2019-07-19

    服务器选择对SEO的影响 1:服务器的稳定性好 服务器的稳定对用户体验、搜索引擎优化极其不利,服务器不稳定会有以下...

  • MySQL数据库优化总结

    《高性能MySQL》指导 性能优化1.表优化2.索引优化3.查询优化4.服务器优化5.系统与硬件优化 稳定优化1....

  • 优化Linux下的内核TCP参数以提高系统性能

    优化Linux下的内核TCP参数以提高系统性能 内核的优化跟服务器的优化一样,应本着稳定安全的原则。下面以Squi...

  • Pytorch框架学习(11)——优化器

    @[toc] 1. 什么是优化器 pytorch的优化器:管理并更新模型中可学习参数的值,使得模型输出更接近真实标...

  • 影响服务器租用稳定运行的因素

    服务器是一个网站稳定运行的基石,不仅影响网站的运行,也关系到网站搜索引擎优化、用户体验等。那么,影响租用服务器稳定...

  • Android性能优化

    1. 性能优化的目的 性能优化的目的是为了让应用程序App更快、更稳定 & 更省。具体介绍如下: 更快:应用程序 ...

  • 一款让女人疯狂,让男人破产的增强现实AR黑科技

    这是一款现实增强智能镜子。采用计算机视觉优化,图像优化,及3D成像系统。配合人体追踪和图像稳定的运动传感器,实时采...

  • Android应用性能优化

    一.绘制优化 二.内存优化 三.存储优化 四.稳定性优化 五.耗电优化 六.安装包大小优化

  • VPS服务器优势有哪些?

    VPS服务器优势 从开始的时候,我们从虚拟主机转型VPS、服务器,主要是因为当时由于稳定和优化网站需要,虚拟主机没...

网友评论

      本文标题:AdaBelief-更稳定的优化器

      本文链接:https://www.haomeiwen.com/subject/dqoybktx.html