美文网首页
深度学习服务器搭建笔记——从硬件选择到环境安装

深度学习服务器搭建笔记——从硬件选择到环境安装

作者: huxycn | 来源:发表于2019-04-02 11:59 被阅读0次

    一、硬件选择

    快速指南

    参考文章:RTX 2080时代,如何打造属于自己的深度学习机器

    GPU:

    • RTX 2070 、RTX 2080 Ti、GTX 1070、GTX 1080 和 GTX 1080 Ti。

    CPU:

    • 每个 GPU 1-2 核,这取决于你的数据预处理;
    • 只要主频大于 2GHz,那 CPU 就应该支持我们想要运行的大量 GPU,PCIe 通道并不是太重要。

    RAM:

    • 时钟频率无关紧要,买更便宜的 RAM;
    • 购入至少和你已有 GPU 内存大小相同的 CPU 内存;
    • 只有更需要时才买更多的 RAM;如果要使用超大规模的数据集,那么需要更多的内存。

    硬盘/SSD:

    • 用于存储数据的硬盘驱动器至少需要 3TB;
    • 使用 SSD 预处理小数据集。

    PSU:

    • GPU+CPU+10% 就是你必需的电源供应量,再将总电量乘以 110% 而获得最终所需要的电源功率;
    • 如果使用多块 GPU,还要增加一些额外的电源供应量;
    • 确保 PSU 有足够的 PCIe 连接器(6+8pins);
    • 附:PSU计算器

    散热:

    • CPU,使用标准的 CPU 散热器或一体化的水冷解决方案;
    • GPU,使用空气散热、使用鼓风机式的散热器、配置风扇的速度。

    主板:

    • 尽可能获得更多的 PCIe 插槽,为未来增加 GPU 做好准备。

    参考配置

    CPU:i7-9700k
    GPU:RTX-2080ti
    RAM:DDR4 3000MHz 16G * 4
    SSD:SATA SSD 512G
    PSU:1000w
    散热:塔式散热
    主板:Z390

    二、系统安装及初始配置

    安装Ubuntu18.04LTS

    下载Ubuntu18.04LTS镜像,用UltraISO制作U盘启动盘,按照提示一步一步安装

    更换apt源

    备份配置文件:sudo mv /etc/apt/sources.list /etc/apt/sources.list.bak

    将以下内容复制到/etc/apt/sources.list文件中

    deb http://mirrors.aliyun.com/ubuntu/ bionic main restricted universe multiverse
    
    deb-src http://mirrors.aliyun.com/ubuntu/ bionic main restricted universe multiverse
    
    deb http://mirrors.aliyun.com/ubuntu/ bionic-security main restricted universe multiverse
    
    deb-src http://mirrors.aliyun.com/ubuntu/ bionic-security main restricted universe multiverse
    
    deb http://mirrors.aliyun.com/ubuntu/ bionic-updates main restricted universe multiverse
    
    deb-src http://mirrors.aliyun.com/ubuntu/ bionic-updates main restricted universe multiverse
    
    deb http://mirrors.aliyun.com/ubuntu/ bionic-backports main restricted universe multiverse
    
    deb-src http://mirrors.aliyun.com/ubuntu/ bionic-backports main restricted universe multiverse
    
    deb http://mirrors.aliyun.com/ubuntu/ bionic-proposed main restricted universe multiverse
    
    deb-src http://mirrors.aliyun.com/ubuntu/ bionic-proposed main restricted universe multiverse
    
    

    更新

    sudo apt update
    sudo apt upgrade
    

    更换pip源

    将以下内容复制到~/.pip/pip.conf文件中

    [global]
    index-url=http://mirrors.aliyun.com/pypi/simple/
    trusted-host=mirrors.aliyun.com
    

    安装常用软件

    chrome

    sogou-linux

    wps-linux

    三、NVIDIA环境安装

    不需要先单独安装驱动

    安装gcc和cmake

    sudo apt install gcc
    sudo apt install cmake
    

    安装cuda(过程中安装驱动)

    选择合适的cuda版本,tensorflow1.13不支持cuda10.1
    选择合适的cuda版本,tensorflow1.13不支持cuda10.1
    选择合适的cuda版本,tensorflow1.13不支持cuda10.1

    从官网下载cuda安装脚本

    Snipaste_2019-04-09_07-58-23.png

    安装cuda的过程中会自动安装最新的驱动

    安装完成后在.bashrc中设置环境变量

    export PATH=/usr/local/cuda/bin${PATH:+:${PATH}}
    export LD_LIBRARY_PATH=/usr/local/cuda/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
    export CUDA_HOME=/usr/local/cuda
    

    运行source .bashrc使其生效

    安装cudnn

    从官网下载cudnn,需登录

    Snipaste_2019-04-09_08-01-02.png

    解压,复制文件到/usr/local/cuda相关文件夹内

    sudo cp cuda/include/cudnn.h    /usr/local/cuda/include      
     sudo cp cuda/lib64/libcudnn*    /usr/local/cuda/lib64
     sudo chmod a+r /usr/local/cuda/include/cudnn.h  /usr/local/cuda/lib64/libcudnn*
    

    四、深度学习开发环境安装(tensorflow/pytorch)

    安装Python包管理工具

    下载miniconda3并安装,安装完成后source ~/.bashrc

    新建python虚拟环境

    conda create -n <env-name> python=3.6
    

    进入python虚拟环境

    conda activate <env-name>
    

    安装python包

    conda install <package-name>
    

    安装常用Python库

    tensorflow/pytorch

    conda install tensorflow-gpu
    
    conda install pytorch
    

    numpy

    pandas

    pillow

    jupyter

    IDE/编辑器选择

    Pycharm

    VS Code

    Vim/Emacs/Sublime

    五、CPU/GPU监控工具

    htop

    监控CPU和RAM

    htop
    

    nvidia-smi

    监控GPU

    watch -n 1 nvidia-smi
    

    相关文章

      网友评论

          本文标题:深度学习服务器搭建笔记——从硬件选择到环境安装

          本文链接:https://www.haomeiwen.com/subject/qywwbqtx.html