torch代码运行时显存溢出问题

作者: 闭门造折 | 来源:发表于2020-10-15 15:44 被阅读0次

在实验室参与开发了一个评测平台。在使用的时候有部分攻击算法会出现显存溢出的情况。同时随着样本数增加，这种显存占用比会同比增加。而不是和预先设定的一样，仅和设置的batch_size相关。如此一来，对于一些占用显存本身就较大的算法，当样本数增加时，Docker虚环境肯定会崩溃。下面将给出我的整个搜索+解决问题的过程。

写在最前面的话

这个问题目前已经解决，最终发现报错的原因是，开发那边没有正确的把batch_size传入攻击算法中，导致出现了可能只有1张图像，但是开了一个65倍图像尺寸的空间（实际上3就够了），然后这个空间作为输入传入模型，导致占用显存过多。

在排查问题的过程中，马佬告诉我，其实Pytorch之类的都会有自动回收机制，需要保证的其实是

for循环中的变量，如果是显存上的，尽量不要让他离开for循环范围！
按照GC的原理，是引用计数的，当某个局部变量不存在引用的时候，会自动回收。因此如果for循环内部/外部有引用，都会导致某些中间变量一直被持有。

举个例子：

losses = []
for i in range(233):
    x = Variable(input).to(device)  此时x在GPU上
    output = self.model(x)          此时output也在GPU上
    losses.append(output)           这句话将可能导致存储了output梯度，并由于持有output对象导致他不会在每次for循环后释放
y = x + ...         这句话在for循环外，等于for循环结束的时候，x仍存在未来的引用可能，此时的x不会被回收

可以修改的方式有很多，比如在for循环内部losses.append一句中，可以把output转成cpu上资源。以及将y = 这一句考虑能不能删去。

下面是正文：首先列举全部搜索到的问题：

问题一记录累计信息时直接使用了输出的Variable

这个问题的发现，是参考了这篇知乎回答《pytorch的坑---loss没写好，显存爆炸》
原贴就问题的描述：

算是动态图的一个坑吧。记录loss信息的时候直接使用了输出的Variable。
for data, label in trainloader:
    out = model(data)
    loss = criterion(out, label)
    loss_sum += loss     # <--- 这里
运行着就发现显存炸了。观察了一下发现随着每个batch显存消耗在不断增大..
参考了别人的代码发现那句loss一般是这样写：
loss_sum += loss.data[0]
这是因为输出的loss的数据类型是Variable。而PyTorch的动态图机制就是通过Variable来构建图。主要是使用Variable计算的时候，会记录下新产生的Variable的运算符号，在反向传播求导的时候进行使用。
如果这里直接将loss加起来，系统会认为这里也是计算图的一部分，也就是说网络会一直延伸变大，那么消耗的显存也就越来越大
总之使用Variable的数据时候要非常小心。不是必要的话尽量使用Tensor来进行计算...

问题二 for循环过程中的迭代变量

参考讨论帖《Tensor to Variable and memory freeing best practices》
在这篇帖子中有提到，Variable和Tensor实际上共用的是一块内存空间。所以在使用了Variable之后，del掉相应的Variable。不会带来明显的内存释放。唯一可能带来一定效果的，是在for循环过程中，如

for i, (x, y) in enumerate(train_loader):
    x = Variable(x)
    y = Variable(y)
    # compute model and update
    del x, y, output

x和y本身作为train_loader中内容，会占用一块内存，而循环时，会产生一块临时内存。帖子中回复认为，此处可以节省一点点。需要注意的是，还需要额外删去引用到x和y的变量，否则仍然存在占用。

问题三多次训练，GPU未释放

参考自讨论帖《How can we release GPU memory cache?》
这个帖子中描述的解决办法为，当GPU计算完毕后，把相应的变量和结果转成CPU，然后调用GC，调用torch.cuda.empty_cache()

def wipe_memory(self): # DOES WORK
    self._optimizer_to(torch.device('cpu'))
    del self.optimizer
    gc.collect()
    torch.cuda.empty_cache()

def _optimizer_to(self, device):
    for param in self.optimizer.state.values():
        # Not sure there are any global tensors in the state dict
        if isinstance(param, torch.Tensor):
            param.data = param.data.to(device)
            if param._grad is not None:
                param._grad.data = param._grad.data.to(device)
        elif isinstance(param, dict):
            for subparam in param.values():
                if isinstance(subparam, torch.Tensor):
                    subparam.data = subparam.data.to(device)
                    if subparam._grad is not None:
                        subparam._grad.data = subparam._grad.data.to(device)

问题四 torch.load的坑

参考自知乎回答《PyTorch 有哪些坑/bug？ - 知乎用户的回答》
该回答中描述，当你使用：

checkpoint = torch.load("checkpoint.pth")
model.load_state_dict(checkpoint["state_dict"])

这样load一个 pretrained model 的时候，torch.load() 会默认把load进来的数据放到0卡上，这样每个进程全部会在0卡占用一部分显存。解决的方法也很简单，就是把load进来的数据map到cpu上：

checkpoint = torch.load("checkpoint.pth", map_location=torch.device('cpu'))
model.load_state_dict(checkpoint["state_dict"])

按照马佬的建议，此处如果不想用到cpu的话，也可以map_location=rank。具体的写法参考了《pytorch源码》以及《pytorch 分布式训练 distributed parallel 笔记》

    # 获取GPU的rank号
    gpu = torch.distributed.get_rank(group=group)  # group是可选参数，返回int，执行该脚本的进程的rank
    # 获取了进程号后
    rank = 'cuda:{}'.format(gpu)
    checkpoint = torch.load(args.resume, map_location=rank)

问题五 pretrain weights问题

参考自之乎回答《PyTorch 有哪些坑/bug？ - 鲲China的回答》
在做交叉验证的时候，每折初始化模型，由于用到了pretrained weights，这时候显存不会被释放，几折过后显存就爆炸了~，这时候用三行代码就可以解决这个问题

del model
gc.collect()
torch.cuda.empty_cache()

问题六不做backward，中间变量会保存

参考自《PyTorch 有哪些坑/bug？ - hjy666的回答》

但是上述方法是0.4中的解决方法。pytorch0.4到pytrch1.0跨度有点大，variable跟tensor合并成tensor了，不能设置volatile 参数，所以在做evaluation时很容易出现out of memory的问题。所以你需要在最后的loss和predict输出设置

.cpu().detach()

比如说：

total_loss.append(loss.cpu().detach().numpy())
total_finish_loss.append(finish_loss.cpu().detach().numpy())

尝试解决问题

方法一：全局查找字符串

全局查找累计过程，由于主要是+=的问题，所以grep +=试试：

$ grep -rn "+=" ./

得到结果

zaozhe@ /d/LABOR/SUIBUAA_AIEP (dev_aiep)
$ grep -rn "+=" ./
Binary file ./Datasets/ImageNet/images/ILSVRC2012_val_00000005.JPEG matches
Binary file ./Datasets/ImageNet/images/ILSVRC2012_val_00000006.JPEG matches
Binary file ./Datasets/ImageNet/images/ILSVRC2012_val_00000007.JPEG matches
Binary file ./Datasets/ImageNet/images/ILSVRC2012_val_00000008.JPEG matches
./EvalBox/Defense/anp.py:100:                total += inputs.shape[0]
./EvalBox/Defense/anp.py:101:                correct += (preds == labels).sum().item()
./EvalBox/Defense/eat.py:223:                total += inputs.shape[0]
./EvalBox/Defense/eat.py:224:                correct += (preds == labels).sum().item()
...

但是搜索结果中存在很多的Binary file文件，把所有搜索结果拷贝到sublime中，ctrl + F搜索全部包含"Binary file"字样的搜索行，使用ctrl + shift + K一键删除所有匹配行。

$ grep -rn "+=" ./
./EvalBox/Analysis/grad-cam.py:36:                outputs += [x]
./EvalBox/Analysis/grad-cam.py:134:            cam += w * target[i, :, :]
./EvalBox/Analysis/grand_CAM.py:32:                outputs += [x]
./EvalBox/Analysis/grand_CAM.py:109:            cam += w * target[i, :, :]
./EvalBox/Analysis/Rebust_Defense.py:66:                total += inputs.shape[0]
./EvalBox/Analysis/Rebust_Defense.py:67:                correct += (preds == labels).sum().item()
./EvalBox/Attack/AdvAttack/deepfool.py:105:                loop_i += 1
./EvalBox/Attack/AdvAttack/deepfool.py:137:            loop_i += 1
./EvalBox/Attack/AdvAttack/ead.py:208:                cnt += 1
...

然后再手动筛选掉与该问题无关的行，如上方示例中deepfool中的+=1，这里并不会产生问题一中，无用梯度不释放问题。然后这里我很快就定位到了具体的py文件中，有这么一行

    output = model(xs)

方法二：确定输入输出尺寸

这一步很简单，就是在你觉得不妥的变量上，输出一下他的尺寸看看

print("in line xxx, the var xs 's shape = ", xs.shape)

加一些提示语，然后看看会不会是传入的图像太大了。

我遇到的实际问题就是因为，攻击算法执行过程中，用于做扰动处理的预空间维度太高。按照马佬的测试，1张3 * 244 * 244的ImageNet图像，在VGG模型上执行预测，约占用显存1.6G。而我传入的是80 * 3 * 375 * 500的输入，所以显存爆炸。改为3 * 3 * 375 * 500之后，显存就可以正常供给了。

方法三：如何查看实时的GPU使用率

这个也是debug过程中很苦恼的东西，想知道是不是在某一步的时候，传到显存上的东西太多了，但是又不方便单步调试。

使用指令nvidia-smi可以看到当前的GPU使用率，大致如图：

但是我想要的是在执行过程中，执行的同时，获取具体的GPU使用情况。这里我参考了这篇博客《使用python中的GPUtil库从NVIDA GPU获取GPU状态》
这里面用到了一个第三方库叫GPUtil，执行pip install gputil即可完成下载。然后我封装了一个函数：

   def get_gpu_info(self, text = ""):
      print("当前行为为：", text)
      GPUtil.showUtilization()
   def predict(self, xs, model):
       var_xs = Variable(xs.to(device))
       self.get_gpu_info("将xs传入GPU")
       for i in range(100):
           for j in range(200):
               output = model(var_xs)
               self.get_gpu_info("执行一次预测过程")
               some work there ...
           self.get_gpu_info("内层循环迭代完毕，查看是否正确释放显存")

而这个的输出类似于下图。最好还是添加一个输出提示，因为他如果没有提示做分割的话，其实不是很方便看到底执行到哪里了。

在这篇参考博客中，我看到有这么一段代码

import GPUtil
import time
while True:
    Gpus = GPUtil.getGPUs()
    for gpu in Gpus:
        print('GPU总量', gpu.memoryTotal)
        print('GPU使用量', gpu.memortUsed)
    time.sleep(5)

他这里的意思是不停的输出GPU的总量和使用量。但是我实际使用过程中发现，好像并不是非常的好用，具体情况见下图。

可以看到右边是我的一个实测结果，虽然我中间改变了GPU的使用情况，但是输出的值基本没变。不知道是更新不够快还是如何。我一开始以为是更新不够快，但是我发现哪怕程序一开始，他都可能会显示已经占用了部分的显存资源。所以我就改用了上面的那个GPUtil.showUtilization()

方法四：找大腿问问

如果debug实在是太难了，也不要一门心思去找自己的问题，找个小伙伴问问。描述给他人的同时你也会更了解问题所在，而且有可能对方一语道破！

最后放个图纪念一下这篇博客的诞生：

torch代码运行时显存溢出问题

写在最前面的话

问题一记录累计信息时直接使用了输出的Variable

问题二 for循环过程中的迭代变量

问题三多次训练，GPU未释放

问题四 torch.load的坑

问题五 pretrain weights问题

问题六不做backward，中间变量会保存

尝试解决问题

方法一：全局查找字符串

方法二：确定输入输出尺寸

方法三：如何查看实时的GPU使用率

方法四：找大腿问问

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

工作记录

torch代码运行时显存溢出问题

写在最前面的话

问题一 记录累计信息时直接使用了输出的Variable

问题二 for循环过程中的迭代变量

问题三 多次训练，GPU未释放

问题四 torch.load的坑

问题五 pretrain weights问题

问题六 不做backward，中间变量会保存

尝试解决问题

方法一：全局查找字符串

方法二：确定输入输出尺寸

方法三：如何查看实时的GPU使用率

方法四：找大腿问问

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

工作记录

问题一记录累计信息时直接使用了输出的Variable

问题三多次训练，GPU未释放

问题六不做backward，中间变量会保存