美文网首页人工智能技术圈
深度学习多GPU运行时的降温方法

深度学习多GPU运行时的降温方法

作者: 科技老丁哥 | 来源:发表于2019-04-19 18:18 被阅读26次

刚配置了多GPU用于深度学习,但是组装之后跑了一遍,发现多GPU发热特别厉害,由于机子是4个GPU堆叠在一起,所以基本上散热效果很差,如果只用其中一个GPU来跑,稳定运行后,这个GPU的温度会上升到85度左右,其他相邻的GPU温度也会上升到60-70多度,更别说4个GPU同时跑起来,估计整体温度会上升到90多度,而且性能也会极大下降,简直伤不起啊。

后来发现深度学习训练时GPU温度过高?几个命令,为你的GPU迅速降温这篇文章,尝试了一下,文章中的方法仅仅可以用于单个GPU的风扇速度调节,对于多个GPU的风扇速度还是调节不了,我尝试了很多次后,终于搞定了多GPU的风扇速度调节方法。

我的系统是Ubuntu 1604, GPU是4块 RTX 2080 Ti,带有显示器(X server)。

1. 单个GPU的风扇速度调节

简单记录一下步骤:

  1. cd /etc/X11 下,看看有没有xorg.conf文件,如果没有,新建一个,方法:
sudo nvidia-xconfig --cool-bits=4
  1. 如果/etc/X11下有了xorg.conf文件,使用sudo nano xorg.conf打开编辑。查看Section "Device"下是否有
 Option          "Coolbits" "4"

这一句话,如果没有添加上去,

如果使用sudo nvidia-xconfig --cool-bits=4新建了xorg.conf,这个Option Coolbits就已经存在了。

  1. 重启电脑sudo reboot

  2. 设置GPU0这一个GPU的风扇转速,此处设为90%:

nvidia-settings -a "[gpu:0]/GPUFanControlState=1" -a "[fan:0]/GPUTargetFanSpeed=90"

也可以通过nvidia-settings 打开控制面板,手动滑动调节块来设置转速,如下。


image.png

2. 多个GPU的风扇速度调节

这部分我尝试了好多方法,走了好多弯路,后来发现设置起来超级简单,步骤为:

  1. cd /etc/X11 下,看看有没有xorg.conf文件,如果没有,新建一个,方法:
sudo nvidia-xconfig 

如果已经有这个文件,则直接往下。

  1. 设置为多GPU模式,执行如下命令
sudo nvidia-xconfig --enable-all-gpus
  1. 设置多GPU模式下每个GPU的风扇转速可以调节:
sudo nvidia-xconfig --cool-bits=4
  1. 重启电脑sudo reboot

  2. 查看nvidia控制面板是否有转速的手动滑动调节块,输入:nvidia-settings命令,出现下图,分别点击GPU-1, GPU-2,GPU-3,会出现Fan 0 Speed调节滑块,可以手动来调节转速。


    多GPU运行时降温方法.png
  3. 可以打开这个控制面板手动滑动来调节Fan Speed,当然也可以用命令:

nvidia-settings -a "[gpu:0]/GPUFanControlState=1" 
nvidia-settings -a "[gpu:1]/GPUFanControlState=1" 
nvidia-settings -a "[gpu:2]/GPUFanControlState=1" 
nvidia-settings -a "[gpu:3]/GPUFanControlState=1" 
nvidia-settings -a "[fan:0]/GPUCurrentFanSpeed=80" 
nvidia-settings -a "[fan:1]/GPUCurrentFanSpeed=85" 
nvidia-settings -a "[fan:2]/GPUCurrentFanSpeed=86" 
nvidia-settings -a "[fan:3]/GPUCurrentFanSpeed=90" 

此处将GPU0的转速设置为80%,GPU1: 85%,等等。

  1. 查看设置结果:使用nvidia-smi查看结果为:


    多GPU运行时降温方法

3. 温度测试

相关文章

  • 深度学习多GPU运行时的降温方法

    刚配置了多GPU用于深度学习,但是组装之后跑了一遍,发现多GPU发热特别厉害,由于机子是4个GPU堆叠在一起,所以...

  • [tensorflow](十) Tensorflow 计算加速

    20181204 qzd 1 Tensorflow使用GPU 2 深度学习训练并行模式 3 多GPU并行 4 分布...

  • 深度学习硬件指南

    GPU 假设你将用GPU来进行深度学习或者你正在构建或者升级用于深度学习的系统,那么抛开GPU是不合理的。GPU是...

  • 五.GPU or CPU ?

    根据实际问题选择正确的处理方法,GPU不见得比CPU快! GPU与CPU比较,GPU为什么更适合深度学习?http...

  • 多GPU跑深度学习

    有时候我们的模型非常大,计算量非常大,我们需要多个GPU来辅助加速。或者一张GPU已经放不下我们的模型的时候。可能...

  • 云上深度学习实践(二)-云上MXNet实践

    目录 云上深度学习实践(一)-GPU云服务器TensorFlow单机多卡训练性能实践 云上深度学习实践(二)-云上...

  • DeepCamera - 将相机转换为AI-Powered wi

    什么是SharpAI DeepCamera ARM GPU上的深度学习视频处理监控,用于人脸识别以及更多方法。将数...

  • 8. 深度学习软件介绍

    这节课小哥哥介绍深度学习的软件 CPU vs GPU GPU——图形卡,用于渲染图像,在深度学习中使用的是NVID...

  • 配置实验室的台式机

    1.gpu选择参考深度学习中如何选择一款合适的GPU卡的一些经验和建议分享 - 深度学习世界 - CSDN博客 2...

  • TensorFlow知识点

    1. 使用指定的GPU和显存 如果设备上装备了多块GPU,TF运行时默认使用所有与他可见GPU,而且默认使用尽可能...

网友评论

    本文标题:深度学习多GPU运行时的降温方法

    本文链接:https://www.haomeiwen.com/subject/ctscgqtx.html