CUDA
CUDA VISIBLE DEVICE https://www.jianshu.com/p/22c0f8ec9a3e
CUDA_VISIBLE_DEVICES=2,3 python my_script.py # Uses GPUs 2 and 3.
代码里设置可见显卡
if args.gpu == 'None':
config.set_cuda(False)
else:
try:
os.environ['CUDA_VISIBLE_DEVICES'] = str(args.gpu)
except IndexError:
config.set_cuda(False)
如果要周期性的输出显卡的使用情况,可以用watch指令实现:
watch -n 10 nvidia-smi
升级CUDA版本
看NVIDIA驱动版本
sudo dpkg --list | grep nvidia-*
和nvidia-smi
差不多,以前者为准,然后到 https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html 或 不同版本cuda对应的NVIDIA驱动版本 (mamicode.com) 找对应的 CUDA 版本;
检查linux版本 sudo dpkg --list | grep nvidia-*
选择CUDA版本https://developer.nvidia.com/cuda-11.1.0-download-archive?target_os=Linux&target_arch=x86_64&target_distro=WSLUbuntu&target_version=20 或者 https://developer.nvidia.com/cuda-downloads?target_os=Linux
CUDA版本检测https://zhuanlan.zhihu.com/p/48641682
当CUDA9安装完成后,需要进行检测:
-
cat /usr/local/cuda/version.txt #这种方法不太准,得到9.0.176
-
nvcc --version #这种方法准。如果nvcc没有安装,则sudo apt install nvidia-cuda-toolkit。检查出来是7.5.17
3)通过代码来查:
cudaDriverGetVersion(&driver_version); #获取cuda版本。得到9.0
cudaRuntimeGetVersion(&runtime_version); #获取cuda运行时版本。得到7.5
4)检测显卡型号及NVIDIA驱动版本
查看GPU型号 lspci | grep -i nvidia 得到M4000
查看NVIDIA驱动版本 sudo dpkg --list | grep nvidia-* 得到384.130
根据不同版本cuda对应的NVIDIA驱动版本(不同版本cuda对应的NVIDIA驱动版本 - LearnFromNow - 博客园),这个驱动应该对应cuda9.0
5)进一步查是否环境变量的问题,参见 Ubuntu16.04下安装多版本cuda和cudnn - tunhuzhuang1836的博客 - CSDN博客
在~/.bashrc中查看有无类似的语句,如有改成下面的样子,没有则增加:
export PATH="$PATH:/usr/local/cuda/bin"
export LD_LIBRARY_PATH="$LD_LIBRARY_PATH:/usr/local/cuda/lib64"
export LIBRARY_PATH="$LIBRARY_PATH:/usr/local/cuda/lib64"
然后继续nvcc --version还是得到7.5。
6)检查nvcc
which nvcc,发现是/usr/bin/nvcc,而实际上nvcc是应该在/usr/local/cuda/bin/nvcc。
所以,sudo gedit /usr/bin/nvcc,把里面的内容"exec /usr/lib/nvidia-cuda-toolkit/bin/nvcc" 改成"exec /usr/local/cuda/bin/nvcc"
然后继续nvcc --version这次得到9.0
DGL安装
https://www.dgl.ai/pages/start.html
安装 base 包
- 更新pip
python -m pip install --upgrade pip - 安装 sklearn
pip install -U scikit-learn - 1、使用Pip更新Pytorch和torchvision
列举pip当前可以更新的所有安装包
pip list --outdated --format=legacy
更新pytorch和torchvision安装包
pip install --upgrade pytorch torchvision
- 2、使用conda更新Pytorch和torchvision
建议将其添加soumith为您的Anaconda(或Miniconda)的源服务器
conda config --add channels soumith
更新pytorch和torchvision安装包
conda update pytorch torchvision
检查
import torch
print(torch.version)
torch.cuda.is_available()返回 False
torch.cuda.is_available()返回False,但nvidia-smi正常
网友评论