GPU云服务器深度学习性能模型初探

作者: 阿里云云栖号 | 来源:发表于2018-04-25 14:50 被阅读116次

GPU云服务器深度学习性能模型初探
云上深度学习实践（二）-云上MXNet实践
租用云GPU服务器
NVIDIA Digtal 一个集深度学习模型,数据集,训练和管
TPU: 设计和拆解ASIC芯片
笔记-CPU-GPU-计算速度比较
解决google免费GPU Colab自动掉线问题
使用云监控实现GPU云服务器的GPU监控和报警（下）-云监控插件
GPU云服务器使用
TensorFlow GPU 与源码编译

摘要：本文根据实测数据，初步探讨了在弹性GPU云服务器上深度学习的性能模型，可帮助科学选择GPU实例的规格。

1 背景

得益于GPU强大的计算能力，深度学习近年来在图像处理、语音识别、自然语言处理等领域取得了重大突破，GPU服务器几乎成了深度学习加速的标配。

阿里云GPU云服务器在公有云上提供的弹性GPU服务，可以帮助用户快速用上GPU加速服务，并大大简化部署和运维的复杂度。如何提供一个合适的实例规格，从而以最高的性价比提供给深度学习客户，是我们需要考虑的一个问题，本文试图从CPU、内存、磁盘这三个角度对单机GPU云服务器的深度学习训练和预测的性能模型做了初步的分析，希望能对实例规格的选择提供一个科学的设计模型。

下面是我们使用主流的几个开源深度学习框架在NVIDIA GPU上做的一些深度学习的测试。涉及NVCaffe、MXNet主流深度学习框架，测试了多个经典CNN网络在图像分类领域的训练和推理以及RNN网络在自然语言处理领域的训练。

2 训练测试

我们使用NVCaffe、MXNet主流深度学习框架测试了图像分类领域和自然语言处理领域的训练模型。

2.1 图像分类

我们使用NVCaffe、MXNet测试了图像分类领域的CNN网络的单GPU模型训练。

NVCaffe和MXNet测试使用ImageNet ILSVRC2012数据集，训练图片1281167张，包含1000个分类，每个分类包含1000张左右的图片。

2.1.1 CPU+Memory

2.1.1.1 NVCaffe

NVCaffe是NVIDIA基于BVLC-Caffe针对NVIDIA GPU尤其是多GPU加速的开源深度学习框架。LMDB格式的ImageNet训练集大小为240GB ，验证集大小为9.4GB。

我们使用NVcaffe对AlexNet、GoogLeNet、ResNet50、Vgg16四种经典卷积神经网络做了图像分类任务的模型训练测试。分别对比了不同vCPU和Memory配置下的训练性能。性能数据单位是Images/Second（每秒处理的图像张数）。图中标注为10000指的是迭代次数10000次，其它都是测试迭代次数为1000次。

2.1.1.2 MXNet

　　MXNet的数据集使用RecordIO格式，ImageNet训练集 93GB ，验证集 3.7GB。

　　我们使用网络Inception-v3（GoogLeNet的升级版）做了图像分类的训练测试。分别对比了不同vCPU和Memory配置下的训练性能。数据单位是Samples/Second（每秒处理的图像张数）。

2.1.2 磁盘IO

　　我们在阿里云GN5(P100)实例上使用NVCaffe测试了GoogLeNet网络模型在NVMe SSD本地盘、SSD云盘和高效云盘上的训练性能，测试结果如下（性能数据单位是Images/Second）：

2.2 自然语言处理

　　我们使用MXNet测试了RNN网络的LSTM模型的训练，使用PennTreeBank自然语言数据集。PennTreeBank数据集的文本语料库包含近100万个单词，单词表被限定在10000个单词。分别对比了不同vCPU和Memory配置下的训练性能：

3 推理测试

3.1 图像分类

　　我们使用NVCaffe测试了图像分类领域的CNN网络的模型推理。

测试使用ImageNet ILSVRC2012数据集，验证测试图片 50000张。

3.1.1 CPU+Memory

　　我们使用NVcaffe对AlexNet、GoogLeNet、ResNet50、VGG16四种经典卷积神经网络做了图像分类的推理测试。分别对比了不同vCPU和Memory配置下的训练性能。数据单位是Images/Second（每秒处理的图像张数）。

3.1.2 磁盘IO

　　我们使用NVCaffe测试了GoogLeNet网络在NVMe SSD本地盘、SSD云盘和高效云盘上的图像分类推理性能，测试结果如下（数据单位是Images/Second）：

4 数据预处理测试

　　在训练模型之前，往往要对训练数据集做数据预处理，统一数据格式，并做一定的归一化处理。

　　我们使用NVCaffe对ImageNet ILSVRC2012数据集做了数据预处理的测试，分别对比了NVMe SSD本地盘、SSD云盘和高效云盘的数据预处理时间，数据单位是秒，数据如下：

5 数据分析

5.1 训练

5.1.1 图像分类

从NVCaffe和MXNet的测试结果来看，图像分类场景单纯的训练阶段对CPU要求不高，单GPU 只需要4vCPU就可以。而内存需求则取决于深度学习框架、神经网络类型和训练数据集的大小：测试中发现NVCaffe随着迭代次数的增多，内存是不断增大的，但是内存需求增大到一定程度，对性能就不会有什么提升了，其中NVCaffe AlexNet网络的训练，相比其它网络对于内存的消耗要大得多。相比之下MXNet的内存占用则要小的多（这也是MXNet的一大优势），93G预处理过的训练数据集训练过程中内存占用不到5G。

对于磁盘IO性能，测试显示训练阶段NVMe SSD本地盘、SSD云盘性能基本接近，高效云盘上的性能略差1%。因此训练阶段对IO性能的要求不高。

5.1.2 自然语言处理

从MXNet的测试结果来看，对于PennTreeBank这样规模的数据集，2vCPU 1GB Mem就能满足训练需求。由于自然语言处理的原始数据不像图像分类一样是大量高清图片，自然语言处理的原始数据以文本文件为主，因此自然语言处理对内存和显存的要求都不高，从我们的测试来看，4vCPU 30GB 1GPU规格基本满足训练阶段需求。

5.2 推理

5.2.1 图像分类

从NVCaffe的图像分类推理测试来看，除AlexNet 2vCPU刚刚够用外，其它网络2vCPU对性能没有影响，而9.4GB的验证数据集推理过程中内存占用大概是7GB左右，因此对大部分模型来看，2vCPU 30GB 1GPU规格基本满足图像分类推理的性能需求。

对于磁盘IO性能，推理性能NVMe SSD本地盘、SSD云盘很接近，但高效云盘差15%。因此推理阶段至少应该使用SSD云盘保证性能。

5.2.2 自然语言处理

对于自然语言处理，参考训练性能需求，我们应该可以推测2vCPU 30GB 1GPU规格应该也能满足需求。

5.3 数据预处理

从NVCaffe对ImageNet ILSVRC2012数据集做数据预处理的测试来看，数据预处理阶段是IO密集型，NVMe SSD本地盘比SSD云盘快25%，而SSD云盘比高效云盘快10%。

6 总结

深度学习框架众多，神经网络类型也是种类繁多，我们选取了主流的框架和神经网络类型，尝试对单机GPU云服务器的深度学习性能模型做了初步的分析，结论是：

深度学习训练阶段是GPU运算密集型，对于CPU占用不大，而内存的需求取决于深度学习框架、神经网络类型和训练数据集的大小；对磁盘IO性能不敏感，云盘基本能够满足需求。

深度学习推理阶段对于CPU的占用更小，但是对于磁盘IO性能相对较敏感，因为推理阶段对于延迟有一定的要求，更高的磁盘IO性能对于降低数据读取的延时进而降低整体延迟有很大的帮助。

深度学习数据预处理阶段是IO密集型阶段，更高的磁盘IO性能能够大大缩短数据预处理的时间。

详情请阅读原文

GPU云服务器深度学习性能模型初探
摘要：本文根据实测数据，初步探讨了在弹性GPU云服务器上深度学习的性能模型，可帮助科学选择GPU实例的规格。 1 ...
云上深度学习实践（二）-云上MXNet实践
目录云上深度学习实践（一）-GPU云服务器TensorFlow单机多卡训练性能实践云上深度学习实践（二）-云上...
租用云GPU服务器
最近训练深度学习模型，CPU比GPU慢太多，一想又用不了太长时间，于是准备在网上租一个云，刚好看到百度云上GPU服...
NVIDIA Digtal 一个集深度学习模型,数据集,训练和管
NVIDIA Digtal 一个集深度学习模型,数据集,训练和管理的平台 NVIDIA深度学习GPU培训系统（DI...
TPU: 设计和拆解ASIC芯片
GPU天生适合海量、并行的矩阵运算、于是大量用在深度学习的模型训练上深度学习中计算量最大的是什么呢 ? 深度学习的...
笔记-CPU-GPU-计算速度比较
这里记录GPU, CPU运行深度学习模型时间对比。 **Case 1: ** Case 2: 安装Tensorfl...
解决google免费GPU Colab自动掉线问题
GPU对于深度学习来说是很重要的，但是高性能的GPU往往比较贵，对于学生党来说承担有些吃力，而Google的col...
使用云监控实现GPU云服务器的GPU监控和报警（下）-云监控插件
摘要：目录使用云监控实现GPU云服务器的GPU监控和报警（上） - 自定义监控使用云监控实现GPU云服务器的G...
GPU云服务器使用
GPU云服务器使用一、阿里云平台GPU服务器： 1.打开阿里云首页https://www.ali...
TensorFlow GPU 与源码编译
在深度学习中，服务器的GPU可以极大地加快算法的执行速度，不同版本的TensorFlow默认使用的GPU版本不同，...