美文网首页我爱编程
tensorflow使用遇到问题记录

tensorflow使用遇到问题记录

作者: 34次日出 | 来源:发表于2017-09-21 16:12 被阅读0次

    在ubuntu16.04环境下的tensorflow使用记录,旨在分享,欢迎讨论。

    tensorflow训练时未启用gpu

    tensorflow在训练时,是默认使用GPU的,如果程序能够正常训练,而并未启动GPU,进行如下检查:

    • 在终端下输入nvdia-smi,显卡启动正常,驱动问题被排除,但是发现GPU使用率未0
    • 在终端输入nvcc -V查看cuda版本,正常显示,问题被排除
    • 问题基本是出在tensorflow本身了,问题找到了,原来是自己安装了cpu版本的tensorflow。重新安装tensorflow,输入指令pip install tensorflow-gpu

    如何安装不同python版本的深度学习框架

    学习DL一段时间后,在学习RNN时,发现了运用RNN生成莎士比亚文学的实例,实例基于Torch撰写,于是想安装torch框架。
    问题:服务器的python版本为3.6,而RNN的实例是基于python2.7的。
    解决办法: 安装anaconda,然后再anaconda下创建python2.7的torch环境:conda create -n torch python=2.7接着在此环境下进行torch的安装。(注意:这里的create torch语句只是创建了一个名字叫torch的环境,并安装了python2.7以及依赖项如numpy等,并没有安装torch本身,需要另行下载)

    读取训练模型时遇到错误:'段错误 (核心已转储)'

    若训练的step为60000,且在训练时使用的保存语句如下:
    saver.save(sess, logs_train_dir+'/model.ckpt', global_step=step)
    那么在指定的文件夹下的ckpt目录应该如下图所示:它们存储了权重系数w和偏置b系数以及整个神经网络图等信息。

    图一 保存模型目录
    为了方便读取,我删除了model.ckpt-60000.data-00000-of-00001中的-60000-00000-of-00001在调用存储的模型进行训练时,出现了上述错误。-00000-of-00001这一段是不能删除的。只能删除训练step的信息-60000这一部分。

    相关文章

      网友评论

        本文标题:tensorflow使用遇到问题记录

        本文链接:https://www.haomeiwen.com/subject/uqzzsxtx.html