美文网首页
[杂记] Nvidia-smi显卡丢失以及GPU Fan显示ER

[杂记] Nvidia-smi显卡丢失以及GPU Fan显示ER

作者: Soonscut | 来源:发表于2020-04-12 22:15 被阅读0次

    1 问题描述

    在训练模型时,kill掉cuda: 1的进程后,nvidia-smi命令发现cuda:1不见了Σ(っ °Д °;)っ
    而此时cuda:0的程序还在运行,只是怎么GPU Fan显示错误???

    Fig 1. nvidia-smi显示

    2 掉卡原因

    首先来看看官方解释:

    Fig 2. 掉卡原因官方解释

    就是说掉卡的常见原因是GPU过热导致显卡shutdown,或者电源配置不当。但是如果在idle(空转,就是没有跑程序)状态下也会发生掉卡现象的话就可能是驱动版本和GPU不匹配了,可以尝试调整驱动版本。

    显然我掉卡的原因是炼丹火力过猛导致GPU过热了,可能是batch-size调的太大而我的代码里面有把点云数据加载进GPU的步骤,导致GPU高速运转达到功率上限或者温度上限而触发保护机制,然后GPU风扇也跟着停转导致GPU Fan显示ERR!。

    3 解决方法

    重启。没错,重启大法好: )

    sudo shutdown -r now
    

    重启之后两张卡都正常。

    还有一个问题是有时候GPU过热会导致风扇停转,GPU Fan显示ERR!,但是GPU上的程序并没有停止(结果导致GPU发热更严重了),这时候应尽快kill改卡上的程序:

    kill -PID      # PID为改卡上的程序编号
    

    然后reset GPU:

    nvidia-smi -r
    

    然后限制GPU的功率,防止GPU过热:

    sudo nvidia-smi -pm 1    # 把GPU的persistent mode(常驻模式)打开,这样才能顺利设置power limit
    sudo nvidia-smi -pl 150    # 把功率限制从默认的250W调整到150W,也可以设置其他值啦,自己斟酌
    

    最后如果还是不放心服务器的散热,也可以手动调节GPU风扇的转速,由于服务器没有显示器,设置起来有点麻烦我自己就没有折腾啦,取需~

    相关文章

      网友评论

          本文标题:[杂记] Nvidia-smi显卡丢失以及GPU Fan显示ER

          本文链接:https://www.haomeiwen.com/subject/bhlimhtx.html