
如上图所示,算法中涉及两个滑动平均和
。
是梯度的滑动平均,
是梯度的平方的的滑动平均。问题出在这两个变量的初始化,它们都被初始化为0,那么在迭代之初和decay非常弱的时候(
),会出现 0/0,导致溢出。
因此,Adam使用了一个简单的初始化校正。为了纠正滑动平均和我们真正想要的
之间的差距,我们来算一下
。


如果是平稳的,即每个时刻的均值一样,那么我们有
。那么唯一的差别就仅有
。所以除掉它就好啦!
如上图所示,算法中涉及两个滑动平均和
。
是梯度的滑动平均,
是梯度的平方的的滑动平均。问题出在这两个变量的初始化,它们都被初始化为0,那么在迭代之初和decay非常弱的时候(
),会出现 0/0,导致溢出。
因此,Adam使用了一个简单的初始化校正。为了纠正滑动平均和我们真正想要的
之间的差距,我们来算一下
。
如果是平稳的,即每个时刻的均值一样,那么我们有
。那么唯一的差别就仅有
。所以除掉它就好啦!
本文标题:Adam优化器的Initialization Bias Corr
本文链接:https://www.haomeiwen.com/subject/tlkllhtx.html
网友评论