GPU模式
默认情况下,SKIL未配置为使用本地可用的GPU资源。此外,你还需要确保SKIL在本地安装了CUDA,以确保驱动程序对你的安装有用。
从SKIL v1.1.0开始,启用SKIL的gpu模式将启用“tensorflow-gpu”。
警告
启用GPU模式后,TensorFlow在执行时占用所有GPU内存,在重新启动Zeppelin解释器之前,你将无法启动任何模型服务器。
避免这个问题的一种方法是在将TensorFlow与GPU一起使用时“allow growth”。你可以按照TensorFlow中的指南以这种方式设置TensorFlow。
请看这页,来刷新你的Zeppelin解释器。
安装CUDA
SKIL版本1.0.x需要在服务器上安装CUDA 9.0工具包才能正常工作。如果你使用的是比SKIL 1.1.x更高的beta或版本,则需要CUDA 9.1。
如果你想安装最新的CUDA二进制文件和安装程序,可以从NVIDIA网站:https://developer.nvidia.com/cuda-downloads获得。
SKIL配置
如果正在运行,请停止SKIL,并在/etc/skil/skil-env.sh中添加或替换以下行:
SKIL_CLASS_PATH=/opt/skil/cuda/*:/opt/skil/lib/*:/opt/skil/native/*:/etc/skil/*
SKIL_BACKEND=gpu
FORCE_UPDATE_TO_DB=true
DEFAULT_ZEPPELIN_JVM_ARGS="-Xmx12g -Dorg.bytedeco.javacpp.maxbytes=12G -Dorg.bytedeco.javacpp.maxphysicalbytes=12G -Dorg.nd4j.versioncheck=false -Dorg.deeplearning4j.config.custom.enabled=false"
image.gif
注意
设置-Xmx
和-Dorg.bytedeco.javacpp.*
内存以匹配GPU或所有GPU中可用的总内存。
如果你在之前已经启动过SKIL,则需要FORCE_UPDATE_TO_DB
。启动SKIL之后,可以(也应该删除)。从UI中设置所有其他配置。
启动SKIL。你应该在“代理”选项卡中看到以下内容:注意GPU#:>0。
注意
tensorflow_gpu 默认是没有安装的,它可以通过如下
%sh
/opt/skil/miniconda/bin/conda install tensorflow_gpu
image.gif
笔记本的段落进行安装。
这也是tensorflow-gpu作为Keras后端所必需的。
网友评论