梯度累积

作者: 三方斜阳 | 来源:发表于2021-03-30 08:14 被阅读0次

梯度累积
AI系统——梯度累积算法
深入浅出--梯度下降法及其实现
梯度下降和梯度上升
（三）线性回归--梯度下降
24、其他形态学操作
梯度消失以及梯度爆炸
神经网络优化2
机器学习-常用优化方法
ML-梯度下降代码-线性回归为例

1. gradient_accumulation_steps

如果显存不足，我们可以通过梯度累积(gradient_accumulation_steps)来解决。
假设原来的batch size=10,数据总量为1000，那么一共需要100 train steps，同时一共进行100次梯度更新。
若是显存不够，我们需要减小batch size，我们设置gradient_accumulation_steps=2，那么我们新的batch size=10/2=5，我们需要运行两次，才能在内存中放入10条数据，梯度更新的次数不变为100次，那么我们的train steps=200
1. 输入数据和标签，计算loss
1. loss.backward() 反向传播，计算当前梯度
1. 多次循环步骤1-2，不清空梯度，使梯度累加在已有梯度上
1. 梯度累积到一定的次数(gradient_accumulation_steps )之后，optimizer.step() 根据累计的梯度更新网络参数，然后model.zero_grad() 清空之前的梯度，为下一波梯度累加做准备
梯度累加就是，每次获取1个batch的数据，计算1次梯度，梯度不清空，不断累加，累加一定次数后，根据累加的梯度更新网络参数，然后清空梯度，进行下一次循环

for step, batch in enumerate(tqdm(train_dataloader, desc="Iteration")):
     batch = tuple(t.to(device) for t in batch)
     input_ids, input_mask, segment_ids, label_ids = batch
     outputs = model(input_ids, label_ids, segment_ids, input_mask)
     loss = outputs#r如果没有调用任何函数，那么返回的是forward函数中的返回值
     if n_gpu > 1:
        loss = loss.mean() # mean() to average on multi-gpu.
        if args.gradient_accumulation_steps > 1:##所以loss应该是间隔指定梯度累积步的均值
            loss = loss / args.gradient_accumulation_steps
       loss.backward()
       tr_loss += loss.item()##设置经过多少个 梯度累积步 之后才更新网络的参数
       if (step + 1) % args.gradient_accumulation_steps == 0:#设定多少batch时更新神经网络的参数
           optimizer.step()
           scheduler.step()  # Update learning rate schedule
           model.zero_grad()
           global_step += 1

一定条件下，batchsize越大训练效果越好，梯度累加则实现了batchsize的变相扩大，如果accumulation_steps为8，则batchsize '变相' 扩大了8倍，是实验室解决显存受限的一个不错的trick，使用时需要注意，学习率也要适当放大。
如果一个模型是需要多卡并行训练以开大batchsize，而你没有这么多卡。那可以利用梯度累加的性质，在每次反向传播后，先不进行优化器的迭代，多累积几个batch的梯度后，再进行优化器迭代、梯度清零的操作。这样的话，即使使用单卡也可以达到多卡开大batch_size的效果，虽然训练会慢一点就是了，但是对卡的要求大大降低了。
一个例子：

gradient_accumulation_steps通过累计梯度来解决本地显存不足问题。
假设原来的batch_size=6，样本总量为24，gradient_accumulation_steps=2
那么参数更新次数=24/6=4
现在，减小batch_size=6/2=3，参数更新次数不变=24/3/2=4

num_train_optimization_steps :模型参数的总更新次数

num_train_optimization_steps = int(total_train_examples / args.train_batch_size / args.gradient_accumulation_steps)

在梯度反传时，每gradient_accumulation_steps次进行一次梯度更新，之前照常利用loss.backward()计算梯度。

一般说batch_size越大越好，现在降低为batch_size=3 的话，一共24个样本，需要每两个batch 更新一次参数，因为引入了梯度累积，
3+3——>1
3+3——>1
3+3——>1
3+3——>1
总共更新4次数
如果batch_size=6，没有梯度累计引入，那么每个batch 更新一次梯度：
6——>1
6——>1
6——>1
6——>1

同样更新4次参数，这样对比起来，引入梯度了累积trick，参数更新次数不会改变，但是可以达到类似于增大了 batch_size 的效果，因为一般来说是每个batch 更新一次网络参数，上面是两个batch 一起才更新，类似于是一次batch=6的效果，即增大了batch.因为显存不够的时候通常需要将batch_size 减小，一般就减小为 batch_size/gradient_accumulation_steps，因为可以按照上述的规则达到没有减小batch_size 的效果.

参考：
gradient_accumulation_steps
gradient_accumulation_steps-CSDN博客