pytorch训练优化-自动混合精度训练（AMP）

作者: 升不上三段的大鱼 | 来源:发表于2023-08-15 13:06 被阅读0次

Pytorch amp学习
PyTorch自动混合精度
基于pytorch的自动混合精度（AMP）
Pytroch使用amp进行混合精度训练
混合精度训练
混合精度训练
【学习tensorflow2】有用的API汇总
PyTorch 训练
Keras的Adam优化器decay理解及自适应学习率
PyTorch 半精度训练踩坑

Pytorch 版本：1.6及以上的版本，支持CUDA
GPU版本：支持 Tensor core的 CUDA（Volta、Turing、Ampere），在较早版本的GPU（Kepler、Maxwell、Pascal）提升一般

PyTorch 通常在 32 位浮点数据 (FP32) 上进行训练，如果你创建一个Tensor，默认类型都是 torch.FloatTensor (32-bit floating point)。

NVIDIA 的工程师开发了混合精度训练（AMP），让少量操作在 FP32 中的训练，而大部分网络在 FP16 中运行，因此可以节省时间和内存。

torch.cuda.amp 提供了混合精度的便捷方法，其中某些操作使用 FP32 ，其他操作使用 FP16。神经网络训练过程中的运算主要可以分三类：

可以受益于 FP16 速度提升的数学函数。包括矩阵乘法（线性层）和卷积。
对于 16 位精度可能不够的函数，输入应采用 FP32。例如减法。
其他操作，可以在 FP16 中运行的函数，但在 FP16 中加速并不显着，因此它们的 FP32 -> FP16 转换不值得。

混合精度训练将每个操作与其适当的数据类型相匹配，这可以减少网络的运行时间和内存占用。

bfloat16 vs. float16
bfloat16 是一种z专门用于深度学习的 16 位浮点格式，由 1 个符号位、8 个指数位和 7 个尾数位组成。而行业标准 IEEE 16 位浮点是1 个符号位、5 个指数位和 10 个尾数位。
实验表明使用 bfloat16 可以提高训练效率，因为深度学习模型通常对指数变化更加敏感，而16位使用内存更少。
bfloat16 的指数位和 float32 一样，在训练过程中不容易出现下溢，也就不容易出现 NaN 或者 Inf 之类的错误。
使用 bfloat16： dtype=torch.bfloat16

一、一般的训练流程

通常自动混合精度训练会同时使用 torch.autocast 和 torch.cuda.amp.GradScaler。

假设我们已经定义好了一个模型，并写好了其他相关代码（懒得写出来了）。

1. torch.autocast
torch.autocast 实例作为上下文管理器，允许脚本区域以混合精度运行。
在这些区域中，CUDA 操作将以 autocast 选择的 dtype 运行，以提高性能，同时保持准确性。

autocast应该只封装前向和 loss 计算，在 backward() 前退出 autocast，反向计算时数据类型和前向的数据类型一致。

训练部分的代码：

for epoch in range(epochs): 
    for input, target in zip(data, targets):
        # 在 ``autocast`` 下进行前向
        with torch.autocast(device_type=device, dtype=torch.float16):
            output = net(input)
            # output is float16 because linear layers ``autocast`` to float16.
          
            loss = loss_fn(output, target)
            # loss is float32 because ``mse_loss`` layers ``autocast`` to float32.
           
        # 在 backward() 前退出``autocast``
        # 不建议在“autocast”下进行反向传递
        # Backward 在相应前向操作选择的相同“dtype”“autocast”中运行。
        loss.backward()
        opt.step()
        opt.zero_grad() # set_to_none=True here can modestly improve performance

可以 autocast 到 FP16 的 CUDA 操作：
__matmul__, addbmm, addmm, addmv, addr, baddbmm, bmm, chain_matmul, multi_dot, conv1d, conv2d, conv3d, conv_transpose1d, conv_transpose2d, conv_transpose3d, GRUCell, linear, LSTMCell, matmul, mm, mv, prelu, RNNCell

autocast 到 FP32 的 CUDA 操作：
__pow__, __rdiv__, __rpow__, __rtruediv__, acos, asin, binary_cross_entropy_with_logits, cosh, cosine_embedding_loss, cdist, cosine_similarity, cross_entropy, cumprod, cumsum, dist, erfinv, exp, expm1, group_norm, hinge_embedding_loss, kl_div, l1_loss, layer_norm, log, log_softmax, log10, log1p, log2, margin_ranking_loss, mse_loss, multilabel_margin_loss, multi_margin_loss, nll_loss, norm, normalize, pdist, poisson_nll_loss, pow, prod, reciprocal, rsqrt, sinh, smooth_l1_loss, soft_margin_loss, softmax, softmin, softplus, sum, renorm, tan, triplet_margin_loss

应该优先选择 binary_cross_entropy_with_logits 而不是 binary_cross_entropy，因为:

torch.nn.function.binary_cross_entropy()（以及包装它的torch.nn.BCELoss）的向后传递可以产生无法在 FP16 中表示的梯度。在启用 autocast 的区域中，前向输入可能是 FP16，这意味着反向梯度必须可以用 FP16 表示。因此，binary_cross_entropy 和 BCELoss 在启用 autocast 的区域中会引发错误。
可以使用 torch.nn.function.binary_cross_entropy_with_logits() 或 torch.nn.BCEWithLogitsLoss 来代替。

2. GradScaler

梯度缩放（gradient scaling）有助于防止在使用混合精度进行训练时，出现梯度下溢，也就是在 FP16 下过小的梯度值会变成 0，因此相应参数的更新将丢失。同样的道理，如果网络中有过小的值，比如防止出现除零而加入的 eps 值如果过小（比如 1e-8），也会导致除零错误出现。

为了防止下溢，梯度缩放将网络的损失乘以比例因子，并对缩放后的损失调用向后传递。然后通过网络向后流动的梯度按相同的因子缩放。换句话说，梯度值具有较大的幅度，因此它们不会刷新为零。

每个参数的梯度（.grad 属性）应该在优化器更新参数之前取消缩放，因此缩放因子不会干扰学习率。

torch.cuda.amp.GradScaler 可以执行梯度缩放步骤。

scaler = torch.cuda.amp.GradScaler()

1+2: Automatic Mixed Precision

use_amp = True

net = make_model(in_size, out_size, num_layers)
opt = torch.optim.SGD(net.parameters(), lr=0.001)
scaler = torch.cuda.amp.GradScaler(enabled=use_amp)

for epoch in range(epochs):
    for input, target in zip(data, targets):
        with torch.autocast(device_type=device, dtype=torch.float16, enabled=use_amp):
            output = net(input)
            loss = loss_fn(output, target)
        # scaler.scale(loss) 缩放梯度，然后进行反向计算
        scaler.scale(loss).backward()
        # scaler.step() 首先取消化器分配参数梯度的缩放，如果梯度中不包括 ``inf`` ``NaN``，就运行 optimizer.step() 
        # 否则会跳过 optimizer.step() 
        scaler.step(opt)
        scaler.update()
        opt.zero_grad() # set_to_none=True here can modestly improve performance

检查 loss scale
训练过程中检查 scale，避免掉到0.

scaler = torch.cuda.amp.GradScaler()
current_loss_scale = scaler.get_scale()
if step % log_iter == 0:
   print('scale:', current_loss_scale)

保存和加载
如果 checkpoint 是在没有 Amp 的情况下保存的，并且你想要使用 Amp 恢复训练，直接从checkpoint 加载模型和优化器状态，然后用新创建的 GradScaler。
如果checkpoint是通过使用 Amp 创建的，并且想要在不使用 Amp 的情况下恢复训练，可以直接从checkpoint 加载模型和优化器状态，忽略保存的 scaler 。

# 保存
checkpoint = {"model": net.state_dict(),
              "optimizer": opt.state_dict(),
              "scaler": scaler.state_dict()}
# Write checkpoint as desired, e.g.,
# torch.save(checkpoint, "filename")

# 加载
dev = torch.cuda.current_device()
checkpoint = torch.load("filename",
                        map_location = lambda storage, loc: storage.cuda(dev))
net.load_state_dict(checkpoint["model"])
opt.load_state_dict(checkpoint["optimizer"])
scaler.load_state_dict(checkpoint["scaler"])

二、多个XX

多个 model，loss， optimizer
如果有多个损失，则必须分别对每个损失调用 scaler.scale。如果网络有多个优化器，可以分别对其中任何一个优化器调用scaler.unscale_，并且必须对每个优化器单独调用 scaler.step。
但是，scaler.update 只能调用一次.

scaler = torch.cuda.amp.GradScaler()

for epoch in epochs:
    for input, target in data:
        optimizer0.zero_grad()
        optimizer1.zero_grad()
        with autocast(device_type='cuda', dtype=torch.float16):
            output0 = model0(input)
            output1 = model1(input)
            loss0 = loss_fn(2 * output0 + 3 * output1, target)
            loss1 = loss_fn(3 * output0 - 5 * output1, target)

        scaler.scale(loss0).backward()
        scaler.scale(loss1).backward()

        # You can choose which optimizers receive explicit unscaling, if you
        # want to inspect or modify the gradients of the params they own.
        scaler.unscale_(optimizer0)

        scaler.step(optimizer0)
        scaler.step(optimizer1)

        scaler.update()

多个 GPU
autocast 状态会在每个线程上传播，不管是在单个进程的多线程，还是每个 GPU一个进程。（和原来的没什么区别）

model = MyModel()
dp_model = nn.DataParallel(model)

# Sets autocast in the main thread
with autocast(device_type='cuda', dtype=torch.float16):
    # dp_model's internal threads will autocast.
    output = dp_model(input)
    # loss_fn also autocast
    loss = loss_fn(output)

多个GPU一个进程，这里 torch.nn.parallel.DistributedDataParallel可能会产生一个侧线程来在每个设备上运行前向传递，就像 torch.nn.DataParallel 一样。修复方法是相同的：将自动转换作为模型前向方法的一部分应用，以确保它在侧线程中启用。

MyModel(nn.Module):
    ...
    @autocast()
    def forward(self, input):
       ...

# Alternatively
MyModel(nn.Module):
    ...
    def forward(self, input):
        with autocast():
            ...

三、常见问题

加速有限，可能的原因有：

显卡不支持
GPU饱和
FP32 -> FP16 的转换消耗了过多时间，应该避免多个小的 CUDA操作
过多的CPU和GPU的通信
matmul 操作的尺寸应该是 8 的倍数

loss 是 inf/NaN

如果网络中有较小的数字，转成 FP16 就会变成0，导致出现inf/NaN，先去掉 GradScaler 检查前向过程中是不是会有这种问题。
如果前向过程中出现 NaN，一般是前向过程中某些步骤蕴含求和求平均的操作导致了上溢，找到这些可能出现上溢的地方，手动固定为 FP32 就可以了。

loss scale 掉到了0
通常也是因为上溢，找到上溢的层固定到 FP32 就可以了。
混合精度下 transformer 的位置编码碰撞问题
目前广泛采用的位置编码算法比如 Rope 和 Alibi，需要为每个位置生成一个整型的 position_id，在 float16/bfloat16 下浮点数精度不足，导致整数范围超过 256 时， bfloat16 无法准确表示每个整数，因此相邻的若干个 token 会共享一个位置编码。
解决思路也是保证 position_id 的精度在 FP32上就可以了。
（在图像里ViT上下文没这么长的就不用担心这个问题）

参考：

网友评论

本文标题：pytorch训练优化-自动混合精度训练（AMP）

本文链接：https://www.haomeiwen.com/subject/omhcmdtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

pytorch训练优化-自动混合精度训练（AMP）

一、一般的训练流程

二、多个XX

三、常见问题

相关文章

Pytorch amp学习

PyTorch自动混合精度

基于pytorch的自动混合精度（AMP）

Pytroch使用amp进行混合精度训练

混合精度训练

混合精度训练

【学习tensorflow2】有用的API汇总

PyTorch 训练

Keras的Adam优化器decay理解及自适应学习率

PyTorch 半精度训练踩坑

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

pytorch训练优化-自动混合精度训练（AMP）

一、一般的训练流程

二、 多个XX

三、常见问题

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

二、多个XX