美文网首页
从Momentum、RMSprop到Adam

从Momentum、RMSprop到Adam

作者: littlewonbin | 来源:发表于2019-08-17 14:14 被阅读0次

    Momentum、RMSprop是两种对梯度下降法的改进方法,他们能够使梯度下降运行得更快,而Adam算法又是Momentum和RMSprop的结合,下面我们具体来看。

    指数加权移动平均(EWMA)

    要理解Momentum梯度下降,必须要理解指数加权移动平均,那么首先我们来看什么是移动平均。移动平均的本质是一种低通滤波,他的目的是过滤掉时间序列中的高频扰动,只保留低频趋势。假设我们有一个时间序列\{y_1,y_2,...,y_t,...\}和某个过滤函数F,在任意时刻t低通滤波可以表示为时间序列y和过滤函数F在整个时域上的卷积

    x_t=\sum_{I=-\infty}^{\infty}F_iy_{t-i}

    在实际中用不到无穷多的数据,那么我们考虑一个滑动的长为T的窗口

    x_t=\sum_{i=t-\frac{T-1}{2}}^{t+\frac{T-1}{2}}F_iy_{t-i}

    但是由于我们没有办法得到时间序列的未来数据(从t+1t+\frac{T-1}{2}段),所以我们将这个窗口向前移动\frac{T-1}{2},于是

    x_t=\sum_{i=t-T+1}^{t} F_iy_{t-i}

    这样做就造成了这个滤波有滞后性(由于我们没有未来数据),即对于当前的数据不敏感,所以我们有了加权移动平均,即我们希望通过赋予当前数据更大的权重来使得该移动平均对当前数据变化更加敏感,如果我们用简单线性函数来进行加权,设加权函数

    F_i=\frac{2(T-t+i)}{T(T+1)}

    那么我们得到的移动加权平均为

    x_t = \sum_{i=1}^{t}F_iy_i=\frac{2(Ty_t+(T-1)y_{t-1}\cdots y_{t-T+1})}{T(T+1)}

    如果仅采用线性权重,所得移动加权平均仍然可能出现滞后性,这是因为t之前的项衰减的不够快,所以我们引出指数加权平均,即加权函数F指数衰减,设衰减因子为\beta,有

    x_t=\sum_{i=t-T+1}^{t}\beta^{t-i}y_i

    如果写成递推的形式就是

    \begin{aligned}x_0&=0\\x_t &= \beta x_{t-1}+(1-\beta)y_t\end{aligned}

    这就是指数加权移动平均。

    Momentum梯度下降(GD with Momentum)

    Momentum梯度下降相较于梯度下降不同的地方在于:不再使用梯度作为学习步长,而是使用梯度的指数加权移动平均。即

    \begin{aligned}v_0 &= 0\\v_{t+1} &= \beta v_{t} +(1-\beta) \frac{\partial J }{\partial W_t}\\\Delta \vec{w}_{t+1} &= -\alpha v_{t+1}\end{aligned}

    很自然的一个问题是,这样做的好处是什么?接下来我们做一些定性的解释。假设我们要最小化的目标函数在初始化到极值点的范围内是凹的(convex),那么我们在模型上运行梯度下降的过程可能是

    为什么会是这个样子?由于学习率\alpha不可能做到无穷小,而目标函数J的导数是不断变化的,所以在每一步梯度下降时,仅仅开始的那一点是朝着梯度的方向优化,而除了那一点后的其他点,优化的方向都不再是梯度的方向,而会有一个夹角。就如同在碗沿上放一个小球,给它一个横向初速度,那么由于速度的影响,小球运动的方向不会总是梯度的方向。

    如上图,如果能够平均掉一些“纵向”的移动,那么学习率就能“贡献”更多给“横向”移动,那么梯度下降就会运行得更快。我们之前假设目标函数在我们优化域内是凹的(不是凹的也会近似成立),几次相邻的梯度下降时,图中“纵向”移动的部分很可能是相反的,我们采用指数加权移动平均把这些“纵向”部分平均掉一些,从而能加速算法,这就是定性地理解Momentum为什么有用。

    在学习RMSprop之前,我们先看一下另外两个算法Rprop和AdaGrad,因为RMSprop是通过这两个算法改进的,了解这两个算法对于理解RMSprop很有帮助。

    Rprop梯度下降

    在运行学习算法的过程中,我们可能会陷入局部极小(local optimal)和鞍点(saddle point),事实上,由于参数空间维度通常较高,陷入局部极小的情况很少,而陷入鞍点几乎是一个普遍情况(特别在神经网络训练中),这样的坏处是,目标函数在一个(或几个)方向上梯度为0,而其余方向上不为0(甚至很大),那么参数就会在那些不为0的方向上摆动,导致优化效率很低,所以Rprop算法引入了梯度上下界,也就是说让梯度的大小至多(或至少)应该是多少,设\Delta w为最终采用的梯度大小,dw[t]dw[t-1]分别是该步和上一步的梯度,\Delta w_{max}\Delta w_{min}分别是梯度上下限,那么Rprop可以表示为

    if\space dw[t] \cdot dw[t-1] >0:\quad \Delta w = min\{\Delta w_{max},\space \alpha \cdot \Delta w[t]\}

    elif\space dw[t]\cdot dw[t-1]<0:\quad \Delta w =max\{\Delta w_{min},\space \alpha \cdot dw[t]\}

    直观理解就是,当梯度朝着一个方向前进时,将它约束在某个\Delta w_{max}内,避免由于梯度过大产生的偏差太大;当梯度在某个点附近摆动时,将它约束在某个\Delta w_{min}以上,给予它足够大的能量,让它能够摆脱局部最优。

    AdaGrad梯度下降

    AdaGrad也是为了解决鞍点和局部最优而出现的,是Rprop的一种改进。Rprop的缺点很明显,梯度容错率过低,如果存在一系列同号的梯度和突然的变号梯度,在所有同号梯度中,梯度会被削弱,而最后的变号梯度会被加强,如果变号梯度是由于计算错误导致的,那么这个错误将会被无限放大(特别是如果算出来的梯度本身就是很大的值的时候)。所以AdaGrad采用了累计平方梯度的思想,也就是用梯度自身的大小来约束梯度。

    \begin{aligned}S[t] &= S[t-1] + (dw[t])^2\\w [t] &= w[t-1]-\alpha\frac{dw[t]}{\delta+\sqrt{S[t]}}\end{aligned}

    其中\delta是一个为了保证分母不过小的量。直观理解就是,对梯度的平方进行累计,将其方根作为一个正则化因子,这样,当dw[t]过大的时候,它也较大,dw[t]较小的时候,它也较小,对梯度做了正则化,让它保持在某个范围内。

    AdaGrad的缺点也是很明显的,随着训练的进行,S[t]会越来越大,这样梯度会逐渐减小,训练提前结束。

    RMSprop梯度下降

    RMSprop对AdaGrad做了一点改进,不再使用单纯的和累计,而是用了指数移动加权平均。

    \begin{aligned}S[t] &= \beta S[t-1] + (1-\beta)(dw[t])^2\\w [t] &= w[t-1]-\alpha\frac{dw[t]}{\delta+\sqrt{S[t]}}\end{aligned}

    这样做的好处就是,首先,可以通过调整\beta来决定S[t]对当前数据的敏感程度,其次由于指数移动平均加权就自带了正则化,所以S[t]不会一直增大,而是会由加权窗口的数据平均决定,这样就很好地解决了问题。

    Adam梯度下降

    了解了Momentum,RMSprop,我们只要把他们结合起来就是著名的Adam算法。也就是

    \begin{aligned}v[0] &= 0\\v_[t] &= \beta v[t-1] +(1-\beta)dw[t]\\S[t] &= \beta S[t-1] + (1-\beta)(dw[t])^2\\w [t] &= w[t-1]-\alpha\frac{v[t]}{\delta+\sqrt{S[t]}}\end{aligned}

    对梯度项做了指数加权平均和正则化,这样这个算法就很健壮(robust)了。

    至此,我们已经了解了Adam算法。迄今为止,由于它的健壮性,Adam算法还在广泛用于深度神经网络中,是一种很有效的算法。

    相关文章

      网友评论

          本文标题:从Momentum、RMSprop到Adam

          本文链接:https://www.haomeiwen.com/subject/spqejctx.html