前言:已经是第三次配置了......可恶!=。= 实验室的服务器总是出现问题,214配置过结果没有说明就重装系统了,重新在214上搭建好,又让换到215服务器。今天做一下整理,减少下次这种情况出现时的麻烦。
1、配置openmpi环境(4.0.0版本,尝试过4.0.5版本偶尔会出错)
(1)下载
wget https://www.open-mpi.org/software/ompi/v4.0/downloads/openmpi-4.0.0.tar.gz

(2)解压缩
tar zxf openmpi-4.0.0.tar.gz

(3)编译安装
cd openmpi-4.0.0
./configure --enable-orterun-prefix-by-default
make -j $(nproc) all
sudo make install #需要root权限
sudo ldconfig #需要root权限
2、使用conda环境配置horovod
(1)创建conda环境
conda create -n envname python==3.7.5
(2)激活环境
conda activate envname
(3)修改channel优先级:
channels:
- pytorch
- conda-forge
- defaults
附:conda安装好后,配置channel
conda config --add channels conda-forge
conda config --add channels defaults
conda config --add channels r
conda config --add channels bioconda
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
#最后一个是换国内的镜像
#查看已经添加的channels
conda config --get channels
3、配置tf以及一些准备环境
conda install bokeh
conda install cmake
conda install tensorflow-gpu==2.2.0
conda install cudatoolkit-dev
conda install cxx-compiler
conda install mpi4py
conda install nccl
conda install nodejs
conda install nvcc_linux-64(在这一步前检查一下CUDA_HOME,没有的话需要可以按照以下步骤操作:
vim ~/.bashrc
添加以下内容:
export PATH=/usr/local/cuda/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
export CUDA_HOME=/usr/local/cuda
编辑完成后 source ~/.bashrc 使文件生效
4、安装horovod,run on GPUs with NCCL:
HOROVOD_GPU_OPERATIONS=NCCL pip install --no-cache-dir horovod
附:安装过程中问题整理
(1)安装horovod时可能会出现如下错误:

原因:版本问题,这里为0.20.3版本
解决:安装0.19.*版本
HOROVOD_GPU_OPERATIONS=NCCL pip install --no-cache-dir horovod==0.19.*

网友评论