美文网首页乡巴佬学AI
Ubantu19下的TensorFlow-GPU版本的环境搭建

Ubantu19下的TensorFlow-GPU版本的环境搭建

作者: 梁寅plus | 来源:发表于2019-06-23 16:16 被阅读0次

    2019-6-23

    好记性不如烂笔头

    Ubantu下的TensorFlow-GPU版本的环境搭建背景环境说明安装步骤准备环境安装TensorFLow-GPU安装显卡支持显卡驱动CUDA/cudnn安装验证安装后记FAQ

    背景

    在win7下做TF开发,已经有几个项目跑起来了。但在做到目标检测例子的时候,发现COCO数据集安装pycocotools死活在win下搞不定,而且原作者还很牛逼的说不支持,虽然民间有牛人在,但是我还是乘着这个机会,转到Ubantu。

    同时将GPU版本的TF搭建记录下来。

    笔者没有linux系统开发经验,所以可以是新手上任,大家多多提意见,也请多多包含。

    环境说明

    • Ubantu:19

    • Anaconda:3

    • python:3.7

    • TensorFlow-GPU:1.13.1

    • CUDA/cudnn:10+/7.6

    • 显卡:GTX960:418.56号驱动

    安装步骤

    准备环境

    • annaconda

      操作系统OK过后,安装Anaconda,选择linux版本,下载过后是一个.sh文件,运行命令行

      bash Anaconda3-2018.12-Linux-x86_64.sh
      

    ​ 然后一路yes,等待安装完成。Annaonda会帮忙安装python,注意看即可。

    • 检查显卡是否可以适配

      • 显卡有硬件要求:目前只有N卡支持,在N卡官网有支持显卡列表,请见
      • 软件对应版本构建:google已经有对应构建参考表出来,请见,我们需要关注几个项
        • tensorflow版本
        • python版本
        • 显卡版本请见文后描述
    • 查询显卡驱动

      查看显卡驱动是为了确保我们的CUDA、cudnn等N卡训练支持

      spci |grep -i vga
      01:00.0 VGA compatible controller: NVIDIA Corporation GM206 [GeForce GTX 960] (rev a1)
      

      显示GPU使用情况,用以下命令:

      nvidia-smi #(显示一次当前GPU占用情况)
      nvidia-smi -l #(每秒刷新一次并显示)
      watch -n 5 nvidia-smi  #(其中,5表示每隔6秒刷新一次终端的显示结果)
      

      我猜,当你输入过后,是如下表现

      (base) leonliang@Leonliang-RP:/$ nvidia-smi 
      VIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
      

      这说明,你需要装驱动(请见后续“安装显卡支持”章节描述)。

      这里附上显卡驱动跟CUDA的版本匹配关系。我建议你现在不要下载,等待Anaconda完成TF安装后,再作决定。

    安装TensorFLow-GPU

    通过Anaconda安装TF-GPU,推荐这里使用Anaconda的虚环境进行环境创建。

    conda search tensorflow-gpu # 先查找下安装版本
    
    ……
    tensorflow-gpu                 1.9.0      hf154084_0  pkgs/main           
    tensorflow-gpu                1.10.0      hf154084_0  pkgs/main           
    tensorflow-gpu                1.11.0      h0d30ee6_0  pkgs/main           
    tensorflow-gpu                1.12.0      h0d30ee6_0  pkgs/main           
    tensorflow-gpu                1.13.1      h0d30ee6_0  pkgs/main   
    

    选择1.13.1版本进行安装:

    在你选择了yes过后,需要一个漫长的等待,如果你怕卡死,可以打开ubantu的‘系统监视器’,查看网速一栏,兴许可以找到活着的感觉。

    conda install tensorflow-gpu=1.13.1
    
    ……
    cudatoolkit        pkgs/main/linux-64::cudatoolkit-10.0.130-0
    cudnn              pkgs/main/linux-64::cudnn-7.6.0-cuda10.0_0
    ……
    

    在这里,我们看到Anaconda安装的CUDA=10+,cudnn是7.6,所以我们将显卡驱动更新到最新的410+吧(驱动--CUDA对应表),具体可以见后面论述显卡安装的章节。

    anaconda会帮安装cuda和cudnn,省去一大堆事情!!强烈建议用此方法!

    另外在官网上,推荐用nightly安装,请读者自行关注。

    安装显卡支持

    显卡驱动

    已经知道Anaconda下载的CUDA=10,cudnn=7.6,那我们得知道显卡的驱动版本驱动--CUDA对应表,如下:

    img

    网上有在Ubantu上N卡安装驱动的三种方法,各位可以看自己喜好进行安装。

    笔者采用的安装方法比较奇葩,是在一个Ubantu问题反馈中找到的,如此

    What I've tried:
    * Use the default that drivers that Ubuntu came with * Install the drivers using the apt-get install nvidia-driver-418
    * Install the drivers using Nvidia installer (wihtout x11 running, using sh ./NVIDIA-Linux-x86_64-418.56.run) #这一步我没做
    * Run nvidia-settings 
    * Use lightDM and not GNOM 
    * Purge all nvidia* and install the nvidia-driver-390 from the distro (and not the recommended one)
    * And many more suggestions that I found online
    
    What is my status right now
    The driver is still not working -  # 之所以没用,是因为Ubantu需要重启
    

    请注意,安装完驱动后,重启机器。请见

    我相信你可能会遇到连接超时问题,比如如下:

    ……
    W: 无法下载 http://ppa.launchpad.net/openjdk-r/ppa/ubuntu/dists/disco/InRelease  无法连接上 ppa.launchpad.net:80 (91.189.95.83),连接超时 [IP: 91.189.95.83 80]
    ……
    

    我相信代理可以帮你解决这个问题,简单来说,如下:

    1、安装npm
    sudo apt-get install npm
    2、下载安装http代理
    npm i -g http-proxy-to-socks
    3、使用代理
    sudo apt-get -oAcquire::Http::Proxy= update
    成功!
    

    CUDA/cudnn安装

    Anaconda在安装TF-GPU的时候,自动安好了。这里啥都不用管!!

    验证安装

    确认一切就位过后,敲入如下python代码,进行GPU调用实验(笔者这里是虚环境,请在对应环境中运行)。

    怎么使用anaconda的spyder IDE?

    ——终端中输入spyder即可,注意使用IDE的时候,终端不能关掉

    import tensorflow as tf
    import numpy as np
     
    # 使用 NumPy 生成假数据(phony data), 总共 100 个点.
    x_data = np.float32(np.random.rand(2, 100)) # 随机输入
    y_data = np.dot([0.100, 0.200], x_data) + 0.300
     
    # 构造一个线性模型
    #
    b = tf.Variable(tf.zeros([1]))
    W = tf.Variable(tf.random_uniform([1, 2], -1.0, 1.0))
    y = tf.matmul(W, x_data) + b
     
    # 最小化方差
    loss = tf.reduce_mean(tf.square(y - y_data))
    optimizer = tf.train.GradientDescentOptimizer(0.5)
    train = optimizer.minimize(loss)
     
    # 初始化变量
    init = tf.initialize_all_variables()
     
    # 启动图 (graph)
    sess = tf.Session()
    sess.run(init)
     
    # 拟合平面
    for step in range(0, 201):
        sess.run(train)
        if step % 20 == 0:
            print (step, sess.run(W), sess.run(b))
     
    # 得到最佳拟合结果 W: [[0.100  0.200]], b: [0.300]
    

    在结果中,我们多少能够看到调用CUDA,GPU等成功信息。

    后记

    Ubantu给人的感觉挺好,特别是下载速度,简直比win快太多了。

    关于安装:更为详细的信息,请见TF官网GPU描述

    FAQ

    Q:我没有Ubantu经验,直接切到Ubantu会不适应么?

    A:确实是不适应,但是系统自身就帮你把线网卡,浏览器,以及输入法,word,excel等软件自动搞定了,有问题直接上网解决,如果作开发的话,是没有什么害怕的。玩游戏什么的,基本无望。

    Q:A卡可以作训练么?

    A:对不起我暂时还不了解这个事情

    Q:请问目前我的显卡驱动就算最新了,跟anaconda下载的cuda驱动都不匹配,怎么办?

    A:先试一下“验证安装”的内容是否能跑过?如果不可以,在Anaconda环境中手工对CUDA和cudnn进行针对显卡驱动的适配。如果这样还不行,那么我觉得您可能要考虑换机器了。

    相关文章

      网友评论

        本文标题:Ubantu19下的TensorFlow-GPU版本的环境搭建

        本文链接:https://www.haomeiwen.com/subject/qztwqctx.html