美文网首页
如何给自己搭建一台深度学习工作站

如何给自己搭建一台深度学习工作站

作者: 图像算法 | 来源:发表于2019-08-21 09:36 被阅读0次

    如何给自己搭建一台深度学习工作站?

    这个是很多刚准备入门的同学疑问,那么我们今天就来讲解下如何搭建。

    有多种典型配置,一个 GPU 的机器、两个或四个 GPU的机器。如果您需要更多GPU,请考虑配置两台具有四个GPU的计算机。

    如果您想要一台同时具有6~8个GPU的机器,您需要联系特殊供应商进行配置,并拥有专业的计算机房来存储。

    CPU

    由于AMD和Intel最近经常更新CPU,因此最好选择新的CPU。

    CPU和GPU的关系

    CPU瓶颈并不大。通常,GPU对应于2~4个CPU核心。例如,单卡机器购买四核CPU,四卡机器购买10核CPU。

    在训练时,只要数据生成器(DataLoader)比GPU快,CPU就不会成为瓶颈,也不会减慢训练速度。

    PCI-E支持

    除核心数量外,还需要注意PCI-E支持。通用显卡是PCI-E 3.0 x16。例如,i9-9820X的PCI-E通道数为44.如果配置了四个卡,则只能支持1x16 + 3x8 + 1x4。也就是说,单卡全速,三卡半速,一个NVMe固态硬盘。在这种情况下,请考虑选择带有PLX桥接芯片的主板。

    AMD的2990WX拥有64个PCI-Es,但仅支持x16 / x8 / x16 / x8四卡配置

    看看英特尔的CPU

    双卡机选择i9-9900K,四卡机根据预算选择X系列的CPU。

    主板需要注意的事项:

    CPU接口是否正确,例如LGA2066和SocketTR4?

    例如,PCI-E插槽的高度是否足以插入图形卡,PCI-E插孔之间的距离必须至少满足双插槽宽图形卡的高度。

    PCI-E还可以支持多张卡同时运行的速度。例如,1x16 + 3x8是常见配置。

    了解主板各项参数:

    GIGABYTE X299 AORUS MASTER(转1.0)采用4组2槽间距显卡插槽设计,支持1x16,2x16,2x16 + 1x8,1x16 + 3x8四种配置(需要十个以上核心CPU),请参考手册 在这里安装。安装在不同位置的显卡速度不同:

    GIGABYTE X299 AORUS MASTER (rev. 1.0)

    GIGABYTE X299 AORUS MASTER manual

    带有桥接芯片的主板

    一些主板,例如WS X299 SAGE,有一个PLX桥接芯片,当CPU没有足够的PCI-E时可以实现四卡x16速度:

    WS X299 SAGE

    在多卡并行训练的情况下,PCI-E的传输速度决定了梯度同步的速度。如果您正在培训大型模型并想要构建多卡机器,建议选择支持四个PCI-E x16的主板。

    显卡

    训练需要FP32和FP16的性能,推断INT8的性能。训练大型模型需要注意内存的大小。

    考虑购买RTX 2080Ti的成本,您可以为高性能和高成本购买TITAN RTX,为本地客户购买Tesla V100。

    RTX 2080内存很小,不推荐使用。GTX1080Ti已经出了很长时间,在线都是用过的卡,不推荐。

    涡轮和风扇

    购买显卡时,一定要注意涡轮增压版,不要购买两三个风扇版本,除非你打算购买一张显卡。

    由于涡轮风扇的热量吹到外壳外面,它可以很好地带走热量,散热效果更好。如果您购买三个风扇的版本,当您插入多卡时,上面的卡会将热量吹到第二张卡,导致第二张卡的温度过高,这将影响性能。

    风扇图形卡很可能超过双插槽宽度,第二张卡可能不会插入第二个PCI-E插槽。这也需要注意。

    服务器推断卡

    除了用于训练,还有一类卡是用于推断的(只预测,不训练),如:

    这些卡都没有风扇,但它们也需要消散。它们需要由服务器的强大风扇被动地消散,因此它们只能在专门设计的服务器上运行。有关详细信息,请参阅NVIDIA官方网站的说明。

    价格/性能选择应该是特斯拉T4,但是完整性能需要使用TensorRT深度优化,还有很多坑,例如当您的网络使用不受支持的运营商时,您需要自己实施。

    NVIDIA仅允许此类卡在服务器上运行,例如GTX 1080Ti和RTX 2080Ti,这些卡无法在数据中心中使用。

    硬盘类型

    有三种常见的硬盘接口:

    SATA3.0,速度600MB / s

    SAS,速度1200MB / s

    PCIE 3.0 x4(NVMe),速度3.94GB / s

    4K随机读写队列深度为32

    SATA3机械硬盘没有很好的数据源,因此数据是经验性的

    SATA3固态硬盘数据源:三星(SAMSUNG)1TB SSD固态硬盘SATA3.0接口860 EVO

    NVMe SSD数据源:英特尔(Intel)1TB SSD固态硬盘M.2接口(NVMe协议)760P系统

    面对大量的小文件,使用NVMe硬盘可以在一分钟内扫描1000万个文件。如果您使用普通硬盘,则需要一天时间。为了挽救生命并简化代码,建议为SSD选择NVMe协议。

    如果您的主板不够新并且您没有NVMe插槽,则可以使用M.2转接卡将M.2接口转换为PCI-E接口。

    M.2 转接卡

    内存

    内存容量的选择通常大于内存,例如具有16GB内存的单卡和具有64GB内存的四张卡。因为有一个数据生成器(DataLoader),数据不必完全加载到内存中,通常不会成为瓶颈。

    电源

    首先计算功率之和,如单卡CPU 100W,显卡250W,再加上其他约400W,再购买650W功率。

    最好为双卡购买1000W以上的电源。最好为四张卡购买1600W电源。我测量了1500W电源的四卡机器。运行所有卡后,由于电量不足,它会自动关闭。

    通常,墙壁插座仅支持220V 10A,即2200W AC。由于电源需要将交流电转换为直流电,因此会有一些损耗,高达1600W。因此,如果您想支持八张卡,最好不要在家中试用。八卡通常是双电源,需要专用PDU插座,并使用16A插孔,如果在家中使用,则不能插入墙上插座。

    网卡

    通常,主板配有千兆网卡。如果您需要设置多机多卡集群,请联系供应商以获得专业解决方案。

    机壳

    如果你有单卡,你可以直接购买普通机箱,注意显卡的长度可以放下。

    Air 540机箱

    显示器

    安装系统后,深度学习工作站不需要显示。使用系统时,请使用手边的显示器。

    键盘和鼠标

    安装系统后,深度学习工作站不需要键盘和鼠标。安装系统时,请使用手边的键盘和鼠标。

    以上就是推荐给自己搭建一台深度学习工作站,我们也可以看看其他网友的配置如下图:

    一路GPU

    两路GPU

    四路GPU

    希望对大家有所帮助。

    更多论文源码关注微信公众号:“图像算法”或者微信搜索账号imalg_cn关注公众号

    相关文章

      网友评论

          本文标题:如何给自己搭建一台深度学习工作站

          本文链接:https://www.haomeiwen.com/subject/ocovsctx.html