服务器显卡驱动现实不了
实验室的GPU计算服务器频繁出现问题,让本来计算资源紧缺的实验室增加一丝紧张的气氛。实验室的GPU计算服务器是很久之前采购的,已经过了保修期,所以出现问题需要我们自己去维修。
为了修好实验室配有NVIDIA GeForce RTX 4090显卡的GPU计算服务器,根据目前出现的问题,我们进行充分的调研、商量、制定维修方案。逐步排除各种原因,以及总结相应故障的处理办法。
目前的机器故障和尝试总结如下
- 实验室的GPU计算服务器上有两块NVIDIA GeForce RTX 4090的显卡,但是两块卡同时跑程序的时候会出现故障——机器死机。表现为,ssh远程连不上,显示界面也是卡死不动。
- 猜测CPU风扇的散热问题,但是更换了CPU的水冷风扇之后,实验室的GPU计算服务器运行起来还是会出现故障。
- 猜测内存出现了问题,但是更新了主板的内存条之后,实验室的GPU计算服务器的故障还是存在。
- 在维修过程中,弄坏了主板上的一个元器件,所以主板坏了。但是我们发现主板坏了之后,已经买了一个相同的型号的新的主板换上去了。
故障排除了很久,但是在原先的问题上,没有实质性的进展。最后,我们觉得实验室的GPU计算服务器,双卡一起使用存在问题,即实验室的GPU计算服务器不支持双卡的NVIDIA GeForce RTX 4090,于是开始单张NVIDIA GeForce RTX 4090跑程序。
关闭安全开机(Secure Boot)
虽然使用单卡可以跑程序,但是机器被折腾一阵之后,显卡驱动安装不上。
经过对提示的错误的分析和思考,我们发现是主板的安全开机(Secure Boot)没有关闭。
于是我们关闭了安全开机(Secure Boot)
关闭安全开机(Secure Boot)的步骤如下
- 开机后,立刻按压键盘上的“delete”键,进入BIOS [Advanced Mode]
- 点选[Boot]页面
- 点选[Secure Boot]选项
- [OS Type]选项默认设置为Other OS。Other OS:安全开机状态关闭。Windows UEFI mode:安全开机状态开启
- BIOS选项设置下,Secure Boot 实际对应状态
BIOS下Secure Boot State:此项默认灰选,无法手动修改,状态随是否有Secure Boot Keys改变。
User:有Secure Boot Keys;
Setup:没有Secure Boot Keys
Secure Boot Mode 设置为Standard时,Key Management选项灰选,无法设置
安装驱动
- 卸载已经安装的驱动
sudo nvidia-uninstall
sudo apt-get purge nvidia* - 如果启动桌面服务,那么停止桌面服务
sudo service lightdm stop
sudo service gdm stop - 安装驱动
bash NVIDIA-Linux-x86_64-535.86.05.run - 查看驱动
nvidia-smi
网友评论