美文网首页
深度学习跑视觉相关模型,运行一段时间直接卡死,问题排查

深度学习跑视觉相关模型,运行一段时间直接卡死,问题排查

作者: 你说你要一场 | 来源:发表于2019-08-12 15:23 被阅读0次

    首先考虑gpu问题,如果是显存等不足,应该是程序直接终止。
    使用watch -n 1 nvidia-smi监视gpu运行状况,后来发现一个特点,可以从风扇转速百分比确定是不是温度过高,在五六十左右是正常的,如果80%以上说明已经过热了。

    就我经历的情况而言,gpu温度达到84度,风扇接近100%,风扇是在可以的情况下以尽可能低的转速运行的。这说明温度已经非常高了,风扇不得不全速运行。

    解决散热有效的办法就是讲机箱侧板取下,取下后,gpu温度稳定在75左右,风扇转速在65%左右。程序没有再卡死过。


    在此之前我怀疑过是jupyter notebook不稳定导致程序崩溃,事实是并不存在这种问题,以后还是优先使用jupyter notebook运行,可以查看各种数据,也可以继续运行,十分方便。

    相关文章

      网友评论

          本文标题:深度学习跑视觉相关模型,运行一段时间直接卡死,问题排查

          本文链接:https://www.haomeiwen.com/subject/yzjujctx.html