7.4动量法
在7.2节(梯度下降和随机梯度下降)中我们提到,目标函数有关自变量的梯度代表了目标函数在自变量当前位置下降位移的方向。因此,梯度下降也叫作最陡下降(steepest下降)。在每次迭代中,梯度下降根据自变量当前位置,转变当前位置的梯度更新自变量。然而,如果自变量的交替方向仅改变自变量当前位置,这可能会带来一些问题。
7.4.1梯度下降的问题
让我们考虑一个输入和输出分别为二维向量x = [ x 1,x 2 ] 时自变量的迭代轨迹。
%matplotlib inline
import sys
sys.path.append("..")
import d2lzh_pytorch as d2l
import torch
eta = 0.4 # 学习率
def f_2d(x1, x2):
return 0.1 * x1 ** 2 + 2 * x2 ** 2
def gd_2d(x1, x2, s1, s2):
return (x1 - eta * 0.2 * x1, x2 - eta * 4 * x2, 0, 0)
d2l.show_trace_2d(f_2d, d2l.train_2d(gd_2d))
输出:
epoch 20, x1 -0.943467, x2 -0.000073
image
可以看到,同一位置上,目标函数在正确方向。因此,给定学习率,梯度下降自变量时变量自变量在垂直方向比在水平方向移动幅度变化。那么,我们需要一个较小的学习率从而避免自变量在垂直方向上越过目标函数最优解。然而,这会造成自变量在水平方向上朝最优解移动变慢。
下面我们试着将学习率调得稍大一点,然后自变量在正确方向不断越过最优解并逐渐发散。
eta = 0.6
d2l.show_trace_2d(f_2d, d2l.train_2d(gd_2d))
输出:
epoch 20, x1 -0.387814, x2 -1673.365109
image
7.4.2动量法
动量法的提出是为了解决梯度下降的上述问题。由于小批量随机梯度下降比梯度下降更为广义,设时间步动量法对每次迭代的步骤做如下修改:
其中,动量超参数γ=0时,动量法等价于小批量随机梯度下降。
在解释动量法的数学原理前,让我们先从实验中观察梯度下降在使用动量法后的迭代轨迹。
def momentum_2d(x1, x2, v1, v2):
v1 = gamma * v1 + eta * 0.2 * x1
v2 = gamma * v2 + eta * 4 * x2
return x1 - v1, x2 - v2, v1, v2
eta, gamma = 0.4, 0.5
d2l.show_trace_2d(f_2d, d2l.train_2d(momentum_2d))
输出:
epoch 20, x1 -0.062843, x2 0.001202
image
可以看到使用较小的学习率时,动量法在垂直方向上的移动更加精细,并且在水平方向上恢复逼近最优解。下面使用穿透的学习率 ,此时自变量也不再发散。
eta = 0.6
d2l.show_trace_2d(f_2d, d2l.train_2d(momentum_2d))
输出:
epoch 20, x1 0.007188, x2 0.002553
7.4.2.1指数修订移动平均
为了从数学上理解动量法,让我们先解释一下指数加权移动平均(指数加权移动平均)。
因此,在实际中,我们常常将 y
现在,我们对动量法的速度变量做变形:
7.4.3从零开始实现
相对于小批量随机梯度下降,动量法需要对每个一个自变量维护一个同它一样形状的速度变量,并且超参数里多了动量超参数。实现中,我们将速度变量用更广义的状态变量states
表示。
features, labels = d2l.get_data_ch7()
def init_momentum_states():
v_w = torch.zeros((features.shape[1], 1), dtype=torch.float32)
v_b = torch.zeros(1, dtype=torch.float32)
return (v_w, v_b)
def sgd_momentum(params, states, hyperparams):
for p, v in zip(params, states):
v.data = hyperparams['momentum'] * v.data + hyperparams['lr'] * p.grad.data
p.data -= v.data
我们先将动量超参数momentum
设0.5,这时可以看成是特殊的小批量随机梯度下降:其小批量随机梯度为最近2个时间步的2倍小体积梯度的平均。
注:个人认为这里不应该是“增加平均”而应该是“增加和”,因为根据7.4.2.2节分析,超出平均最后除以了 1 - <nobr aria-hidden="true" style="-webkit-font-smoothing: antialiased; -webkit-tap-highlight-color: rgba(0, 0, 0, 0); text-size-adjust: none; box-sizing: border-box; transition: none 0s ease 0s; border: 0px; padding: 0px; margin: 0px; max-width: none; max-height: none; min-width: 0px; min-height: 0px; vertical-align: 0px; line-height: normal; text-decoration: none; white-space: nowrap !important;">1−γ</nobr><math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><annotation encoding="application/x-tex">1-\gamma</annotation></semantics></math>1个-γ,所以就相当于没有进行平均。
d2l.train_ch7(sgd_momentum, init_momentum_states(),
{'lr': 0.02, 'momentum': 0.5}, features, labels)
输出:
loss: 0.245518, 0.042304 sec per epoch
将动量超参数增量momentum
到0.9,这时依然可以看成是特殊的小批量随机梯度下降:其小批量随机梯度为最近10个时间步的10倍小比例梯度的平均。我们先保持学习率0.02不变。
同理,这里不应该是“预期平均”而应该是“增加和”。
d2l.train_ch7(sgd_momentum, init_momentum_states(),
{'lr': 0.02, 'momentum': 0.9}, features, labels)
输出:
loss: 0.252046, 0.095708 sec per epoch
image
直觉上,10倍小批量梯度比2倍小批量梯度大了5倍,我们可以试着将学习率分解到原来的1/5。此时目标函数值在下降了之后后变化更加精细。
这也印证了刚刚的观点。
d2l.train_ch7(sgd_momentum, init_momentum_states(),
{'lr': 0.004, 'momentum': 0.9}, features, labels)
输出:
loss: 0.242905, 0.073496 sec per epoch
image
7.4.4简洁实现
在PyTorch中,只需要通过参数momentum
来指定动量超参数即可使用动量法。
d2l.train_pytorch_ch7(torch.optim.SGD, {'lr': 0.004, 'momentum': 0.9},
features, labels)
输出:
loss: 0.253280, 0.060247 sec per epoch
image
小结
- 动量法使用了指数增量移动平均的思想。
- 动量法且相邻时间步的自变量更新在方向上更加一致。
网友评论