美文网首页
安装 nvidia 驱动,cuda, 以及 cudnn

安装 nvidia 驱动,cuda, 以及 cudnn

作者: OurNote | 来源:发表于2019-01-21 20:57 被阅读0次

安装 nvidia 驱动是一个很坑的问题。至少对于我来说,按照 nvidia 官网的方式下载 .run 文件安装从来没成功过。最后我搜了内外网,找到了本文即将介绍的安装方式,很好用!

安装 nvidia 驱动

  1. 添加 nvidia repository
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt update
  1. 选择驱动版本并安装
ubuntu-drivers devices

显示可用的驱动版本,例如:

driver   : nvidia-410 - third-party free
driver   : nvidia-415 - third-party free
driver   : nvidia-418 - third-party free
driver   : nvidia-384 - distro non-free
driver   : nvidia-430 - third-party free recommended
driver   : xserver-xorg-video-nouveau - distro free builtin

如果要安装 410 版本,就用如下命令

sudo apt install nvidia-410

也可以选择 415, 418 等其他驱动版本。
上边显示的驱动可能会有变化,例如这样(中间多了 "driver" 字样)

driver   : nvidia-driver-410 - third-party free
driver   : nvidia-driver-415 - third-party free
driver   : nvidia-driver-440 - third-party free recommended
driver   : nvidia-driver-430 - third-party free
driver   : nvidia-driver-390 - third-party free
driver   : nvidia-driver-435 - third-party free
driver   : xserver-xorg-video-nouveau - distro free builtin

依然安装对应的驱动,例如

sudo apt install nvidia-driver-410

注意:如果在 BIOS 中将 secure boot 设置为 on,在上述安装过程中可能出现设置 secure boot 密码的相关提示。如果在安全性方面要求不是很苛刻,可以考虑将 secure boot 设置为 off.

  1. 重启,然后看看系统设置中的附加驱动中是否添加了 nvidia 的驱动,如下
    Screenshot from 2019-01-21 20-09-07.png
    也可以通过用如下命令查看
nvidia-smi

其中 smi = System Management Interface。 如果安装成功,上述命令应该会显示驱动版本号 410。

如果重启之后运行 “nvidia-smi” 时出现如下错误:

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

一种可能的解决方法是在上述 "Software & Updates" 界面中选择其他驱动版本,尤其是较新的版本,Apply changes 之后重启,可能解决问题。

如果上述方式安装失败,可以参考这篇文章,尝试其他的安装方法。也可以参考这篇文章 中的安装方式。

安装 cuda

安装 cuda 是为了加速训练神经网络。首先去下边的网站确定一下本机 NVIDIA 显卡类型是否支持 cuda
https://developer.nvidia.com/cuda-gpus
只要不是太古老的 NVIDIA 显卡一般都支持 cuda。

如果训练中用到了 tensorflow,应该确认一下 cuda 版本与 tensorflow 版本的兼容性问题。有些程序指定要用某个版本的 tensorflow,那么就应该安装与之兼容的 cuda 版本。


versions.png

如果装了 cuda 10 ,但是训练程序使用 tensorflow 1.11,版本不匹配,运行程序时会提示类似如下的错误:

 ImportError: libcublas.so.9.0: cannot open shared object file

版本对应关系可以在这里查询。

PyTorch 的版本与 cuda 版本也有对应关系,在 PyTorch 主页 可以下载与 cuda 对应的版本,如果要下载更旧的版本,可以在这里这里查找。

说到版本对应关系,cuda 对 nvidia GPU 驱动也是有最低版本要求的,可以查看这里

确定要安装的 cuda 版本之后,按照 官网步骤安装即可。

例如,我选择的是 cuda 10.0


Screenshot from 2019-01-21 20-35-41.png

安装完了还需要检查一下是否成功。用如下命令:

nvcc -V

应该会显示 cuda compiler 版本,这样就说明 cuda 安装成功了。但是,有时候上述命令会提示找不到 nvcc,一个原因可能是确实没装好,但是也有可能cuda 装好了,但是 nvcc 所在路径没有加入系统路径中,所以系统找不到 nvcc 。

如果cuda 安装好了, nvcc 程序应该在路径 /usr/local/cuda/bin 中,可以直接在该路径下执行

./nvcc -V

也可以把 nvcc 加入系统路径中,例如在 .bashrc 文件最后加一句

export PATH=$PATH:/usr/local/cuda/bin

安装 cudnn

这一部分也是按照官网的指导安装即可 https://docs.nvidia.com/deeplearning/sdk/cudnn-install/index.html
比较麻烦的一点是,需要先注册才能下载 cudnn 安装文件。

选择安装文件版本的时候,要与 cuda 版本匹配,就是上边 nvcc -V 显示的版本。注意,不是nvidia-smi 中显示的 cuda 版本。这两个版本可能是不一致的,以 nvcc 为准。

如果 nvcc -Vnvidia-smi 显示的版本不一致,可能的原因可以参考这里: https://www.nuomiphp.com/eplan/en/163997.html
简单来说, cuda 有两类 API:cuda driver API 和 cuda runtime API。在安装 nvidia 驱动时,附带安装了 driver API,nvidia-smi 显示的是 driver API 版本;在安装 cuda 时安装了 runtime API,nvcc -V 显示的时 runtime API 版本。一般基于 cuda 开发的程序都是考虑 runtime API 版本,也就是nvcc -V 显示的版本。

然后就是安装,我的机子是 ubuntu 16.04,所以就选了如下三个文件


Screenshot from 2019-01-21 20-53-21.png

下载之后安装三个文件

sudo dpkg -i libcudnn*.deb

然后验证是否安装成功

cp -r /usr/src/cudnn_samples_*/ $HOME
cd  $HOME/cudnn_samples_*/mnistCUDNN
make clean && make
./mnistCUDNN

如果一切顺利,尤其是版本匹配没有问题,应该会提示 "......Test passed!”
对于有些 test 不通过的情况,重启一下机子可能就解决问题了。

相关文章

网友评论

      本文标题:安装 nvidia 驱动,cuda, 以及 cudnn

      本文链接:https://www.haomeiwen.com/subject/fwyhjqtx.html