如何给自己搭建一台深度学习工作站

作者: 图像算法 | 来源:发表于2019-08-21 09:36 被阅读0次

如何给自己搭建一台深度学习工作站
Nsight调试遇到的坑
如何用Python和深度神经网络锁定即将流失的客户？
基于树莓派与YOLOv3模型的人体目标检测小车（二）
深度学习手册
个人深度学习环境搭建（二）：主机配置与组装
指向深度学习的教学设计席霍斌海沧进修附小教研员
深度学习：Ubuntu16.04+双TitanX+CUDA8.0
深度学习：Ubuntu16.04+双TitanX+CUDA8.0
个人深度学习环境搭建（三）：Windows10+Ubuntu16

如何给自己搭建一台深度学习工作站?

这个是很多刚准备入门的同学疑问，那么我们今天就来讲解下如何搭建。

有多种典型配置，一个 GPU 的机器、两个或四个 GPU的机器。如果您需要更多GPU，请考虑配置两台具有四个GPU的计算机。

如果您想要一台同时具有6~8个GPU的机器，您需要联系特殊供应商进行配置，并拥有专业的计算机房来存储。

CPU

由于AMD和Intel最近经常更新CPU，因此最好选择新的CPU。

CPU和GPU的关系

CPU瓶颈并不大。通常，GPU对应于2~4个CPU核心。例如，单卡机器购买四核CPU，四卡机器购买10核CPU。

在训练时，只要数据生成器（DataLoader）比GPU快，CPU就不会成为瓶颈，也不会减慢训练速度。

PCI-E支持

除核心数量外，还需要注意PCI-E支持。通用显卡是PCI-E 3.0 x16。例如，i9-9820X的PCI-E通道数为44.如果配置了四个卡，则只能支持1x16 + 3x8 + 1x4。也就是说，单卡全速，三卡半速，一个NVMe固态硬盘。在这种情况下，请考虑选择带有PLX桥接芯片的主板。

AMD的2990WX拥有64个PCI-Es，但仅支持x16 / x8 / x16 / x8四卡配置

看看英特尔的CPU

双卡机选择i9-9900K，四卡机根据预算选择X系列的CPU。

主板需要注意的事项：

CPU接口是否正确，例如LGA2066和SocketTR4？

例如，PCI-E插槽的高度是否足以插入图形卡，PCI-E插孔之间的距离必须至少满足双插槽宽图形卡的高度。

PCI-E还可以支持多张卡同时运行的速度。例如，1x16 + 3x8是常见配置。

了解主板各项参数：

GIGABYTE X299 AORUS MASTER（转1.0）采用4组2槽间距显卡插槽设计，支持1x16,2x16,2x16 + 1x8,1x16 + 3x8四种配置（需要十个以上核心CPU），请参考手册在这里安装。安装在不同位置的显卡速度不同：

GIGABYTE X299 AORUS MASTER (rev. 1.0)

GIGABYTE X299 AORUS MASTER manual

带有桥接芯片的主板

一些主板，例如WS X299 SAGE，有一个PLX桥接芯片，当CPU没有足够的PCI-E时可以实现四卡x16速度：

WS X299 SAGE

在多卡并行训练的情况下，PCI-E的传输速度决定了梯度同步的速度。如果您正在培训大型模型并想要构建多卡机器，建议选择支持四个PCI-E x16的主板。

显卡

训练需要FP32和FP16的性能，推断INT8的性能。训练大型模型需要注意内存的大小。

考虑购买RTX 2080Ti的成本，您可以为高性能和高成本购买TITAN RTX，为本地客户购买Tesla V100。

RTX 2080内存很小，不推荐使用。GTX1080Ti已经出了很长时间，在线都是用过的卡，不推荐。

涡轮和风扇

购买显卡时，一定要注意涡轮增压版，不要购买两三个风扇版本，除非你打算购买一张显卡。

由于涡轮风扇的热量吹到外壳外面，它可以很好地带走热量，散热效果更好。如果您购买三个风扇的版本，当您插入多卡时，上面的卡会将热量吹到第二张卡，导致第二张卡的温度过高，这将影响性能。

风扇图形卡很可能超过双插槽宽度，第二张卡可能不会插入第二个PCI-E插槽。这也需要注意。

服务器推断卡

除了用于训练，还有一类卡是用于推断的（只预测，不训练），如：

这些卡都没有风扇，但它们也需要消散。它们需要由服务器的强大风扇被动地消散，因此它们只能在专门设计的服务器上运行。有关详细信息，请参阅NVIDIA官方网站的说明。

价格/性能选择应该是特斯拉T4，但是完整性能需要使用TensorRT深度优化，还有很多坑，例如当您的网络使用不受支持的运营商时，您需要自己实施。

NVIDIA仅允许此类卡在服务器上运行，例如GTX 1080Ti和RTX 2080Ti，这些卡无法在数据中心中使用。

硬盘类型

有三种常见的硬盘接口：

SATA3.0，速度600MB / s

SAS，速度1200MB / s

PCIE 3.0 x4（NVMe），速度3.94GB / s

4K随机读写队列深度为32

SATA3机械硬盘没有很好的数据源，因此数据是经验性的

SATA3固态硬盘数据源：三星（SAMSUNG）1TB SSD固态硬盘SATA3.0接口860 EVO

NVMe SSD数据源：英特尔（Intel）1TB SSD固态硬盘M.2接口（NVMe协议）760P系统

面对大量的小文件，使用NVMe硬盘可以在一分钟内扫描1000万个文件。如果您使用普通硬盘，则需要一天时间。为了挽救生命并简化代码，建议为SSD选择NVMe协议。

如果您的主板不够新并且您没有NVMe插槽，则可以使用M.2转接卡将M.2接口转换为PCI-E接口。

M.2 转接卡

内存

内存容量的选择通常大于内存，例如具有16GB内存的单卡和具有64GB内存的四张卡。因为有一个数据生成器（DataLoader），数据不必完全加载到内存中，通常不会成为瓶颈。

电源

首先计算功率之和，如单卡CPU 100W，显卡250W，再加上其他约400W，再购买650W功率。

最好为双卡购买1000W以上的电源。最好为四张卡购买1600W电源。我测量了1500W电源的四卡机器。运行所有卡后，由于电量不足，它会自动关闭。

通常，墙壁插座仅支持220V 10A，即2200W AC。由于电源需要将交流电转换为直流电，因此会有一些损耗，高达1600W。因此，如果您想支持八张卡，最好不要在家中试用。八卡通常是双电源，需要专用PDU插座，并使用16A插孔，如果在家中使用，则不能插入墙上插座。

网卡

通常，主板配有千兆网卡。如果您需要设置多机多卡集群，请联系供应商以获得专业解决方案。

机壳

如果你有单卡，你可以直接购买普通机箱，注意显卡的长度可以放下。

Air 540机箱

显示器

安装系统后，深度学习工作站不需要显示。使用系统时，请使用手边的显示器。

键盘和鼠标

安装系统后，深度学习工作站不需要键盘和鼠标。安装系统时，请使用手边的键盘和鼠标。

以上就是推荐给自己搭建一台深度学习工作站，我们也可以看看其他网友的配置如下图：

一路GPU

两路GPU

四路GPU

希望对大家有所帮助。

更多论文源码关注微信公众号：“图像算法”或者微信搜索账号imalg_cn关注公众号

网友评论

本文标题：如何给自己搭建一台深度学习工作站

本文链接：https://www.haomeiwen.com/subject/ocovsctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

如何给自己搭建一台深度学习工作站

相关文章