美文网首页
深度学习GPU服务器环境配置(Nvidia-384.183+cu

深度学习GPU服务器环境配置(Nvidia-384.183+cu

作者: Jerry_Liang | 来源:发表于2019-07-12 10:16 被阅读0次

    这几天在跑深度学习有关的代码,弄了一个GPU,找了很多博客去了解如何使用配置才可以使我的代码可以使用GPU去跑。在这一天的忙碌中,终于在晚上把这事搞定了。或许大家会疑惑一个"简单"配置为什么要搞这么久,-_-|| 因为大多资料都是关于Ubuntu系统的配置,关于Centos的资料挺少的,为此,特地记录下本次的配置过程与踩过的坑,留给大家参考。话不多说,开始本教程吧!

    1.系统环境与软件版本

    系统版本cento7.5
    内核版本3.10.0-862.el7.x86_64
    软件版本cuda9.0与cudnn7.0
    显卡驱动Nvidia-384.183
    cuda9.0具体包名cuda-repo-rhel7-9-0-local-9.0.176-1.x86_64.rpm
    cudnn7.0具体包名cudnn-9.0-linux-x64-v7.tgz

    要注意版本的对应性,此处cuda9.0,所以cudnn选择的是cudnn7.0 for cuda9.0cudnn-9.0-linux-x64-v7.tgz

    2.相应软件包查询与获取

    2.1 查看当前系统版本:

    系统中输入指令cat /etc/redhat-release,结果图示例:

    image.png
    2.2 查看内核版本

    输入指令uname -r,结果图示例:

    image.png

    可以看到我们系统当前的内核版本,如我的为3.10.0-862.el7.x86_64

    2.3 检测是否含有GPU

    输入指令lspci | grep -i nvidia,结果示例图:

    image.png

    可以看到我们系统是否含有GPU,其中图中的Tesla P40是我的GPU对应的版本;

    2.4 获取对应版本的显卡驱动

    在知道我们的GPU型号后可以去以下网址拿到对获取对应的显卡驱动:点此查询
    界面如下图所示:

    image.png

    图中主要是选择我们的GPU类型,比如我的是Tesla的,P系列的Tesla P40的GPU,上图忘记选择cuda9.0了,大家注意选择哈!因为tensorflow是基于cuda9.0的,貌似不支持cuda10(参考他人博客的,有误望指出)

    点击右下方的SEARCH,跳转到如下页面后,点击DOWNLOAD下载即可。

    image.png image.png

    使用xftp将显卡驱动上传到我们的服务器中。


    image.png image.png
    2.5 获取cuda9.0

    下载地址点此下载
    按自己系统版本进行选择,选择示例如下图:

    image.png

    下载完后同样用xftp上传到我们的服务器中。

    2.6 获取cudnn7.0

    第一种方法:使用压缩包安装

    在服务器中输入如下指令,下载对应的压缩包(即cuda9.0对应的cudnn7.0)
    wget http://developer.download.nvidia.com/compute/redist/cudnn/v7.0.5/cudnn-9.0-linux-x64-v7.tgz
    下载结果示例图:

    image.png

    更多类型的cudnn系列下载地址参考此处:点此查看

    第二种方法
    注意:此处我亲测的是第一种方法的安装法师,第二种方法的话需要大家尝试哈!此处写出来是为了提供该官网下载地址。去NVIDIA官网下载cuda7.0,需要注册账号登录后才可下载:点此下载

    3. 开始安装

    3.1 安装前准备工作

    yum安装epel、aliyun、elrepo源

    • yum -y install https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm
    • yum -y install epel-release
    • wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo
    • rpm --import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org
    • rpm -Uvh https://www.elrepo.org/elrepo-release-7.0-3.el7.elrepo.noarch.rpm

    安装gcc、gcc-c++编译器
    若已存在则不需要安装
    yum –y install gcc
    yum -y install gcc-c++

    禁用系统自带的nouveau驱动
    1)编辑文件vi /etc/default/grub 在其中添加rd.driver.blacklist=nouveau nouveau.modeset=0GRUB_CMDLINE_LINUX后面,如下图:

    image.png
    2)输入以下指令生成新的grub配置
    grub2-mkconfig -o /boot/grub2/grub.cfg
    3)编辑/etc/modprobe.d/blacklist.conf(如果不存在则创建),并添加blacklist nouveau
    vi /etc/modprobe.d/blacklist.conf
    示例图:
    image.png

    检查内核版本是否一致
    这一步如果不做好的话(即内核版本不一致),在安装显卡驱动时就会遇到下图类似的错误:

    image

    为此,我们需要检查一下当前运行内核版本与/usr/src/kernels目录下的kernel源码版本是否一致。

    • 检查当前运行内核版本uname -r,结果示例如下图:
    image.png
    • 检查/usr/src/kernels目录下的kernel源码版本
      cd /usr/src/kernels
      ls
      image.png

    可以看到有对应的版本3.10.0-862.el7.x86_64。其实我之前就踩了这个坑,该文件夹下并没有3.10.0-862.el7.x86_64,只有3.10.0-957.21.3.el7.x86_64版本的源码,导致我装显卡驱动一致失败。

    若版本一致,则可以继续进行下一步了(忽略下面版本不一致时候的操作)。

    若无对应版本的内核源码,可以在此处下载:点此下载

    找到与自己系统运行源码版本一致的包,如我的查找的包为:


    image.png

    使用xftp将该包传到服务器中,并cd到存储该包的文件夹中,执行以下指令:
    yum -y install kernel-3.10.0-862.14.4.el7.x86_64.rpm

    cd /usr/src/kernels并查看文件夹是否安装成功。

    重启使刚才的禁用配置生效
    reboot

    3.2 安装cuda9.0

    cd到我们存放cuda-repo-rhel7-9-0-local-9.0.176-1.x86_64.rpm的文件夹中,执行安装命令:
    rpm -i cuda-repo-rhel7-9-0-local-9.0.176-1.x86_64.rpm
    yum clean all
    yum -y install cuda

    cuda的默认安装路径如下:/usr/local/cuda

    image.png

    设置cuda环境变量
    vi /etc/profile
    添加以下内容到末尾:

    export CUDA_HOME=/usr/local/cuda
    export LD_LIBRARY_PATH=$CUDA_HOME/lib64:$CUDA_HOME/extras/CUPTI/lib64:$LD_LIBRAY_PATH
    export PATH=$CUDA_HOME/bin:$PATH
    
    

    使配置文件生效:source /etc/profile

    3.3 安装cudnn7.0

    cd到我们的压缩包存放文件夹中,解压
    tar -zxvf cudnn-9.0-linux-x64-v7.tgz
    结果如图所示:

    image.png

    将cuda中的文件复制到cuda toolkit目录中,然后更改文件权限:
    sudo cp cuda/include/cudnn.h /usr/local/cuda/include
    sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64
    sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*

    至此cuda与cudnn安装完成。

    3.4 安装tensorflow-gpu

    yum -y install python-pip
    pip install --upgrade pip
    pip install tensorflow-gpu==1.10.1

    之所以安装1.10.1是因为之前安装1.11.1时,导入tensorflow包使用时会产生段错误:


    image.png

    起初以为是cudnn版本问题,但实际是tensorflow-gpu版本过高了,降低为1.10.1就好了。

    3.5 验证cuda和cudnn安装无误

    进入到python shell,输入以下代码
    import tensorflow
    按回车,若无报错说明cuda与cudnn已经安装好了。

    3.6 安装NVIDIA显卡驱动

    重做inittramfs镜像:
    cp /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
    dracut /boot/initramfs-$(uname -r).img $(uname -r)

    cd到驱动所在目录:
    chmod +x NVIDIA-Linux-x86_64-384.183.run
    ./NVIDIA-Linux-x86_64-384.183.run --kernel-source-path=/usr/src/kernels/3.10.0-862.el7.x86_64/

    执行后就开始安装驱动了,
    接受许可:


    image.png image.png image.png image.png image.png

    检查驱动安装情况nvidia-smi,出现如下页面说明已经成功了。

    image.png

    至此,全部安装已经完成了!可以happy的使用GPU了!

    参考

    显卡驱动安装:https://blog.csdn.net/xueshengke/article/details/78134991

    cudnn压缩包:https://blog.csdn.net/xiangxianghehe/article/details/79177833

    导入tensorflow报错解决:https://blog.csdn.net/u014561933/article/details/80201552

    官方安装文档:https://docs.nvidia.com/deeplearning/sdk/cudnn-install/index.html#install-linux

    https://docs.nvidia.com/deeplearning/sdk/cudnn-install/index.html#install-linux

    https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html

    cudnn报错解决:https://blog.csdn.net/jy1023408440/article/details/82887479

    环境服务搭建:https://www.jianshu.com/p/bc9c054d1767

    相关文章

      网友评论

          本文标题:深度学习GPU服务器环境配置(Nvidia-384.183+cu

          本文链接:https://www.haomeiwen.com/subject/jlqskctx.html