NVIDIA的多显卡，及其在keras上的表现

作者: an0nym0us | 来源:发表于2017-09-28 17:20 被阅读75次

NVIDIA的多显卡，及其在keras上的表现
卷积神经网络实现多个数字识别
第六周、机器学习-安装GPU版TensorFlow
NVIDIA显卡驱动手动更新办法，最新教程
2020-07-22cuda安装
xmrig-nvidia无捐版编译方法
ubuntu16.04 cuda8.0 cudnn6.0 ope
win 10 Anaconda，tf-gpu安装 (201810
(5)ubuntu20.04 tensorflow cudato
Centos 7.4 安装GPU版tensorflow

主板：主板是华硕PRIME X299-A，最大支持三张显卡，带宽分别为PCIE x16 + PCIE x16 + PCIE x8，有两张显卡可以达到x16的带宽，另一张支持x8的带宽。所以插两张显卡较为适宜。

显卡配置：NVIDIA GTX1080Ti 两张。

操作：直接插到主板上。

检查：
开机之后，运行nvidia-smi，可以看到GPU0和GPU1的信息。
在cuda的sample里面，运行deviceQuery，可以看到卡0和卡1的详细信息。
当然运行simpleP2P，会提示这两张显卡之间不能直接交互，因为不支持GPUDirect（https://developer.nvidia.com/gpudirect）。需要Kepler和Fermi架构的GPU才支持。我们用的1080Ti是Pascal架构，故不支持。不过没有关系的。

实验：
运行keras的例子，cifar10_cnn.py，通过nvidia-smi dmon，监测发现虽然卡0和卡1的显存都塞满了，但是其中一张卡的sm和mem都为0，意味着这张卡是不参与计算的，并且该卡的利用率也基本为0%，而另一张卡有30%左右（打比方）。每个batch大概跑20秒左右。跟单卡是一样的。

好像多卡没用啊？

提高batch_size，发现最快能跑到3秒左右。一张卡的sm和mem基本跑满了。另一张卡还是0。

应该是没有正确配置多卡。

解决方案：
参考这个网页：https://medium.com/@kuza55/transparent-multi-gpu-training-on-tensorflow-with-keras-8b0016fd9012，用了一个开发者对于keras框架的multi-gpu支持。
在cifar10_cnn.py里面使用上述支持，会看到两张卡的sm和mem使用率都上去了，GPU的利用率也都上去了，不会一张卡是0，另一张卡比较高的情况。
而且，最重要的是每个batch的时间能够在1秒到2秒之间。提速在100%左右。

但其实应该不会在100%，因为两张卡同时计算一个batch的各一半，最后要由cpu去对输出做merge，然后做反向传播（应该还是由GPU去做）。这中间要花一点点时间。（代码在这里：https://github.com/kuza55/keras-extras/blob/master/utils/multi_gpu.py）