公司购买了一张GPU 卡 (T4)装备安装在服务器上,做机器学习用,听工程师说我们公司的服务器属于cpu服务器,GPU应该装在GPU服务器上,而且这种T4卡算力根本不够,学习入门应该可以,但真正做深度学习可能还是不行。得买更贵的GPU服务器,一台机器8个卡的那种。
卡到了,请了服务器售后的工程师来安装。
拆开服务器后发现没有卡槽能安装,勉强挤进去一个不合适的卡槽,结果开不了机。把T4卡给整坏了,拿到台式机上一试,在台式机上试了一下也是无法开机。他们说回去换卡,过几天再来重新安装。
后来(过了4天),又拿来了张新显卡,装的时候说跟这个光纤网卡换一下位置就能有合适的卡槽了。换了之后果然能够开机了。
结果导致光纤网卡ip变了,访问不了光纤那头的数据了。打算设置光纤ip,结果修改了一下启动文件,导致服务器内所有的文件变成了read-only模式,这下好了,任何人都无法修改内容了,就连root用户也不行。现在虽然可以开机但是还访问不了存储盘,昨天设置了半天没有设置好。说是下周一再来设置。
等到了下一个周一,说是周末做足了功课,又请来了大神远程向日葵连接,一顿操作两个小时候后,终于修复了read-only模式,终于可以正常修改系统文件了,赶忙修改了网卡ip文件,
重启之后终于可以正常访问光纤地址了。
查看显卡:
$ lspci |grep -i nvidia
18:00.0 3D controller: NVIDIA Corporation TU104GL [Tesla T4] (rev a1)
nvidia-smi
apt install nvidia-utils-440
nvidia-smi
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
Image.png
驱动还没装好。。
网友评论