美文网首页
ec2 run machine learning project

ec2 run machine learning project

作者: NatsuYori | 来源:发表于2021-12-19 11:28 被阅读0次

    自己的机器配置太慢了,所以打算在ec2上搭环境跑。可恶昨天居然搭了一天!记录一下主要碰到的问题

    1. ec2上有8个gpu,结果code只能拿到一个gpu。原因是环境变量CUDA_VISIBLE_DEVICES只配置了一个。
      解决方案:
    export CUDA_VISIBLE_DEVICES="0,1,2,3,4,5,6,7"
    

    或者是在code里面:

    os.environ["CUDA_VISIBLE_DEVICES"]="0,1,2,3,4,5,6,7"
    
    1. 后来开了一个更大的ec2,有16个gpu。但是code run不起来,报错 CUDA peer resources error 这个问题没有根本解决,最后认命把gpu调到8个了。但是有类似问题可以参考下这个issue:https://github.com/NVIDIA/nccl/issues/51
    2. 安装fasttext遇到点问题,全程爆红,仔细看了下是gcc的版本太低了,手动升级版本就ok了
    3. transformers真的很好用!

    相关文章

      网友评论

          本文标题:ec2 run machine learning project

          本文链接:https://www.haomeiwen.com/subject/rutofrtx.html