如何给自己搭建一台深度学习工作站?
这个是很多刚准备入门的同学疑问,那么我们今天就来讲解下如何搭建。
有多种典型配置,一个 GPU 的机器、两个或四个 GPU的机器。如果您需要更多GPU,请考虑配置两台具有四个GPU的计算机。
如果您想要一台同时具有6~8个GPU的机器,您需要联系特殊供应商进行配置,并拥有专业的计算机房来存储。
CPU
由于AMD和Intel最近经常更新CPU,因此最好选择新的CPU。
CPU和GPU的关系
CPU瓶颈并不大。通常,GPU对应于2~4个CPU核心。例如,单卡机器购买四核CPU,四卡机器购买10核CPU。
在训练时,只要数据生成器(DataLoader)比GPU快,CPU就不会成为瓶颈,也不会减慢训练速度。
PCI-E支持
除核心数量外,还需要注意PCI-E支持。通用显卡是PCI-E 3.0 x16。例如,i9-9820X的PCI-E通道数为44.如果配置了四个卡,则只能支持1x16 + 3x8 + 1x4。也就是说,单卡全速,三卡半速,一个NVMe固态硬盘。在这种情况下,请考虑选择带有PLX桥接芯片的主板。
AMD的2990WX拥有64个PCI-Es,但仅支持x16 / x8 / x16 / x8四卡配置
看看英特尔的CPU
双卡机选择i9-9900K,四卡机根据预算选择X系列的CPU。
主板需要注意的事项:
CPU接口是否正确,例如LGA2066和SocketTR4?
例如,PCI-E插槽的高度是否足以插入图形卡,PCI-E插孔之间的距离必须至少满足双插槽宽图形卡的高度。
PCI-E还可以支持多张卡同时运行的速度。例如,1x16 + 3x8是常见配置。
了解主板各项参数:
GIGABYTE X299 AORUS MASTER(转1.0)采用4组2槽间距显卡插槽设计,支持1x16,2x16,2x16 + 1x8,1x16 + 3x8四种配置(需要十个以上核心CPU),请参考手册 在这里安装。安装在不同位置的显卡速度不同:
GIGABYTE X299 AORUS MASTER (rev. 1.0)
GIGABYTE X299 AORUS MASTER manual
带有桥接芯片的主板
一些主板,例如WS X299 SAGE,有一个PLX桥接芯片,当CPU没有足够的PCI-E时可以实现四卡x16速度:
WS X299 SAGE
在多卡并行训练的情况下,PCI-E的传输速度决定了梯度同步的速度。如果您正在培训大型模型并想要构建多卡机器,建议选择支持四个PCI-E x16的主板。
显卡
训练需要FP32和FP16的性能,推断INT8的性能。训练大型模型需要注意内存的大小。
考虑购买RTX 2080Ti的成本,您可以为高性能和高成本购买TITAN RTX,为本地客户购买Tesla V100。
RTX 2080内存很小,不推荐使用。GTX1080Ti已经出了很长时间,在线都是用过的卡,不推荐。
涡轮和风扇
购买显卡时,一定要注意涡轮增压版,不要购买两三个风扇版本,除非你打算购买一张显卡。
由于涡轮风扇的热量吹到外壳外面,它可以很好地带走热量,散热效果更好。如果您购买三个风扇的版本,当您插入多卡时,上面的卡会将热量吹到第二张卡,导致第二张卡的温度过高,这将影响性能。
风扇图形卡很可能超过双插槽宽度,第二张卡可能不会插入第二个PCI-E插槽。这也需要注意。
服务器推断卡
除了用于训练,还有一类卡是用于推断的(只预测,不训练),如:
这些卡都没有风扇,但它们也需要消散。它们需要由服务器的强大风扇被动地消散,因此它们只能在专门设计的服务器上运行。有关详细信息,请参阅NVIDIA官方网站的说明。
价格/性能选择应该是特斯拉T4,但是完整性能需要使用TensorRT深度优化,还有很多坑,例如当您的网络使用不受支持的运营商时,您需要自己实施。
NVIDIA仅允许此类卡在服务器上运行,例如GTX 1080Ti和RTX 2080Ti,这些卡无法在数据中心中使用。
硬盘类型
有三种常见的硬盘接口:
SATA3.0,速度600MB / s
SAS,速度1200MB / s
PCIE 3.0 x4(NVMe),速度3.94GB / s
4K随机读写队列深度为32
SATA3机械硬盘没有很好的数据源,因此数据是经验性的
SATA3固态硬盘数据源:三星(SAMSUNG)1TB SSD固态硬盘SATA3.0接口860 EVO
NVMe SSD数据源:英特尔(Intel)1TB SSD固态硬盘M.2接口(NVMe协议)760P系统
面对大量的小文件,使用NVMe硬盘可以在一分钟内扫描1000万个文件。如果您使用普通硬盘,则需要一天时间。为了挽救生命并简化代码,建议为SSD选择NVMe协议。
如果您的主板不够新并且您没有NVMe插槽,则可以使用M.2转接卡将M.2接口转换为PCI-E接口。
M.2 转接卡
内存
内存容量的选择通常大于内存,例如具有16GB内存的单卡和具有64GB内存的四张卡。因为有一个数据生成器(DataLoader),数据不必完全加载到内存中,通常不会成为瓶颈。
电源
首先计算功率之和,如单卡CPU 100W,显卡250W,再加上其他约400W,再购买650W功率。
最好为双卡购买1000W以上的电源。最好为四张卡购买1600W电源。我测量了1500W电源的四卡机器。运行所有卡后,由于电量不足,它会自动关闭。
通常,墙壁插座仅支持220V 10A,即2200W AC。由于电源需要将交流电转换为直流电,因此会有一些损耗,高达1600W。因此,如果您想支持八张卡,最好不要在家中试用。八卡通常是双电源,需要专用PDU插座,并使用16A插孔,如果在家中使用,则不能插入墙上插座。
网卡
通常,主板配有千兆网卡。如果您需要设置多机多卡集群,请联系供应商以获得专业解决方案。
机壳
如果你有单卡,你可以直接购买普通机箱,注意显卡的长度可以放下。
Air 540机箱
显示器
安装系统后,深度学习工作站不需要显示。使用系统时,请使用手边的显示器。
键盘和鼠标
安装系统后,深度学习工作站不需要键盘和鼠标。安装系统时,请使用手边的键盘和鼠标。
以上就是推荐给自己搭建一台深度学习工作站,我们也可以看看其他网友的配置如下图:
一路GPU
两路GPU
四路GPU
希望对大家有所帮助。
更多论文源码关注微信公众号:“图像算法”或者微信搜索账号imalg_cn关注公众号
网友评论