美文网首页
Horovod环境配置(conda)

Horovod环境配置(conda)

作者: 我的章鱼小丸子呢 | 来源:发表于2020-10-29 10:32 被阅读0次

前言:已经是第三次配置了......可恶!=。= 实验室的服务器总是出现问题,214配置过结果没有说明就重装系统了,重新在214上搭建好,又让换到215服务器。今天做一下整理,减少下次这种情况出现时的麻烦。

1、配置openmpi环境(4.0.0版本,尝试过4.0.5版本偶尔会出错)

(1)下载

wget https://www.open-mpi.org/software/ompi/v4.0/downloads/openmpi-4.0.0.tar.gz
下载

(2)解压缩

tar zxf openmpi-4.0.0.tar.gz
解压缩

(3)编译安装

cd openmpi-4.0.0
./configure --enable-orterun-prefix-by-default
make -j $(nproc) all
sudo make install #需要root权限
sudo ldconfig #需要root权限

2、使用conda环境配置horovod

(1)创建conda环境

conda create -n envname python==3.7.5

(2)激活环境

conda activate envname

(3)修改channel优先级:
channels:

  • pytorch
  • conda-forge
  • defaults
    附:conda安装好后,配置channel
conda config --add channels conda-forge
conda config --add channels defaults
conda config --add channels r
conda config --add channels bioconda
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
#最后一个是换国内的镜像

#查看已经添加的channels
conda config --get channels

3、配置tf以及一些准备环境

conda install bokeh
conda install cmake
conda install tensorflow-gpu==2.2.0
conda install cudatoolkit-dev
conda install cxx-compiler
conda install mpi4py
conda install nccl
conda install nodejs
conda install nvcc_linux-64(在这一步前检查一下CUDA_HOME,没有的话需要可以按照以下步骤操作:
vim ~/.bashrc 
       添加以下内容:
export PATH=/usr/local/cuda/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
export CUDA_HOME=/usr/local/cuda
编辑完成后 source ~/.bashrc 使文件生效

4、安装horovod,run on GPUs with NCCL:

HOROVOD_GPU_OPERATIONS=NCCL pip install --no-cache-dir horovod

附:安装过程中问题整理

(1)安装horovod时可能会出现如下错误:

错误

原因:版本问题,这里为0.20.3版本

解决:安装0.19.*版本

HOROVOD_GPU_OPERATIONS=NCCL pip install --no-cache-dir horovod==0.19.*

安装0.19.*版本

相关文章

网友评论

      本文标题:Horovod环境配置(conda)

      本文链接:https://www.haomeiwen.com/subject/euoqvktx.html