Ubuntu 配置 NVIDIA GPU环境开展深度神经网络研究

作者: iCloudEnd | 来源:发表于2023-02-28 09:05 被阅读0次

Ubuntu PyTorch 配置GPU环境
NVIDIA CUDA 深度神经网络库- cuDNN
tensorflow for GPU build from so
Caffe + Digits 配置
Ubuntu16.04配置安装caffe
深度学习建模流程总结
Anaconda下创建Tensorflow环境
训练的小常识
Ubuntu16.04安装配置GPU TeslaP40+CUDA
Tensorflow 源码安装（GPU & conda） pyt

在 Ubuntu 虚拟机 (VM) 上安装和配置 NVIDIA 图形处理单元 (GPU) 可能有点挑战，尤其是对于那些不熟悉此过程的人。但是，只要有一点耐心并采取正确的步骤，您就可以立即启动并运行 NVIDIA GPU。在本文中，我们将介绍在 Ubuntu 机器上为深度学习模型安装和配置 NVIDIA GPU 的过程，涵盖从下载必要的驱动程序到设置 GPU 以供使用的所有内容。

为了安装和配置VM环境以检测您的GPU并使GPU与CUDA工具包一起工作，可以按照以下步骤操作：

第 1 步：检查并卸载现有驱动程序

在为您的 NVIDIA GPU 安装新驱动程序之前，请务必检查您的 Ubuntu 计算机上是否已有现有驱动程序。打开终端窗口并键入以下命令：lspci | grep -i nvidia

此命令将查明 VM 上是否存在任何 NVIDIA 图形设备。如果有任何列出的，请使用以下命令卸载驱动程序和 CUDA：

sudo apt-get --purge remove "*cublas*" "cuda*" "nsight*"
sudo apt-get --purge remove "*nvidia*"

如果您通过源文件安装了 CUDA，请查找它的安装位置（例如 /usr/local）并使用以下命令将其删除：

sudo rm -rf /usr/local/cuda*

然后转到包含对 NVIDIA 存储库的引用的行

sudo vim /etc/apt/sources.list

并将其注释掉

# deb http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/

最后，运行：

sudo apt update

第二步：开始安装

由于我们已成功删除 VM 上现有 NVIDIA 和 CUDA 的所有痕迹，让我们继续开始全新安装。要执行的第一个操作是添加个人包存档 (PPA)，它允许我们创建自己的存储库来分发软件。因此，我们运行：

sudo add-apt-repository ppa:graphics-drivers/ppa --yes
sudo apt update

然后可以使用以下方式安装 NVIDIA 驱动程序：

sudo apt install nvidia-driver-450-server

此时，重要的是要通过检查此兼容性矩阵来了解要安装的正确驱动程序：https://docs.nvidia.com/deploy/cuda-compatibility/index.html

sudo apt install nvidia-cuda-toolkit

但是，因为我们对特定版本（11.3）感兴趣，所以有必要去NVIDIA 开发者页面下载正确的 CUDA 版本。

在该页面上，可以注意到只需单击提供的按钮即可引导您找到正确的OS Architecture、Distribution、Version，更重要的是您感兴趣的 CUDA安装程序类型。可以选择任何安装程序类型，但是，我们将只选择runfile（本地）文件以使安装更容易。

因此，对于此设置，我们使用此链接，它将为 Ubuntu 20.04 机器找到 CUDA 版本 11.3：

image.png

对于我们的任务，我们选择它是nvidia-driver-450因为它是兼容的。接下来，我们将安装 CUDA，这通常可以使用以下方法完成：
我们需要按照安装说明进行一些修改，即运行：

wget https://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.run

sudo sh cuda_11.3.0_465.19.01_linux.run --toolkit --silent --override

这些标志--toolkit --silent --override将确保只安装属于 CUDA 而不是 NVIDIA 的包。没有标志，您可能会收到此错误：

image.png

现在安装已完成，可以重新启动服务器sudo reboot以正确设置所有配置。

为了确认这一点，可以运行这两个命令nvidia-smi分别nvcc --version验证 GPU 驱动程序和 CUDA 版本。

如果不重新启动计算机，您可能会收到以下错误nvidia-smi：

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

此外，incasenvcc --version不断抛出错误，您可能需要将 CUDA 路径添加到bashrc

首先，打开bashrc

sudo nano /home/ $USER /.bashrc

在里面添加以下内容：

export PATH="/usr/local/cuda-11.3/bin:$PATH"
export LD_LIBRARY_PATH="/usr/local/cuda-11.3/lib64:$LD_LIBRARY_PATH"

最后，运行source .bashrc并打开一个新终端再次测试nvcc --version。

我们返回了以下信息：

image.png

第 3 步：为 DNN 安装 Torch 驱动程序

Torch 是用于构建深度神经网络的主要库之一，关于如何使用它有多种资源。

需要执行的最后一组配置是安装torch torchvision和torchaudio（如果需要）。

这可以通过简单地运行来执行：

pip3 install torch==1.11.0+cu113 torchvision==0.12.0+cu113 torchaudio==0.11.0 --extra
-index-url https://download.pytorch.org/whl/cu113

这将安装使用 CUDA 构建的torch版本和具有类似 CUDA 版本的版本和1.11.011.3torchvision0.12torchaudio

假设需要不同的版本，您可以在此处torch检查 CUDA 和 Torch 兼容性并选择合适的版本。

最后我们来做个测试看看我们的安装是否成功。我们将尝试下面的代码：

import torch 
from torch import nn

class BuildSimpleNet(nn.Module):
    def __init__(self):        
        super().__init__()        
        self.l1 = nn.Linear(1,2)

    def forward(self, x):                      
        x = self.l1(x)
        return x


if __name__ == "__main__":
    print(torch.cuda.is_available()) 
    print(torch.cuda.device_count()) 
    print(torch.cuda.current_device())  
    print(torch.cuda.get_device_name(0)) 

    device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
    model = BuildSimpleNet()
    model.to(device) 
    print(next(model.parameters()).is_cuda)

以下是输出：