Pytorch tensorboard/tensorboardx

作者: 瞿港 | 来源:发表于2020-07-04 02:26 被阅读0次

多分类下的ROC曲线及2019/12/19备忘录
pytorch可视化,画模型图以及参数计算
Pytorch tensorboard/tensorboardx
TensorBoardX绘制曲线的简单例子
tensorboardX可视化
Pytorch学习记录-Pytorch可视化使用tensorbo
tensorboard的使用
代码实现（4） Matching Networks
Pytorch学习记录-Pytorch可视化
Pytorch使用TensorboardX进行网络可视化

2020/7/3

因为tensorflow 2.0 开始普及，需要时间学习适应，所以回归使用pytorch写一些模型。由于长时间没有碰过pytorch了，记录一些注意点。

Pytorch原本没有像tensorboard这样的可视化工具，为了弥补这一不足，就借鸡生蛋，直接将tensorflow的tensorboard拿过来使用，tensorboardx就是这样来的。换句话说，tensorboardx和tensorflow中的tensorboard是同一个东西，只是让tensorboard能在pytorch上运行。

ps: 早期没有tensorboardx时，pytorch通过 torch.utils.tensorboard 使用tensorboard，有些函数目前依旧是 actually processed by torch.utils.tensorboard

Step1: 安装

我使用的conda的虚拟环境安装，相当于在系统的大盒子里面创造一个小盒子，把需要的东西装进小盒子里，随时有问题可以把小盒子卸载不影响大盒子，tensorflow官方也推荐使用虚拟环境，虽然pytorch官方没有这么说，我还是用conda单独新建了一个pytorch environment，具体可以查看anaconda的官方文档，搜索manage environment就行。

1. 激活pytorch虚拟环境

conda activate pytorch

2. 安装 tensorboardx

虽然官方教程里面提到可以直接安装tensoboardx:

pip install tensorboardX

但是安装完后，如果在命令行里面输入：

tensorboard --logdir {} --host 0.0.0.0 --port 6006

会抛出错误：'tensorboard' is not recognized as an internal or external command

再次查看官网后发现 tensorboardx在依旧需要tensorboard的支持 “To run tensorboard web server, you need to install it using: pip install tensorboard”.

于是我尝试搜索单独只安装tensorboard不安装tensorflow是否可行，没有发现很好的方案（类似的issue：https://github.com/tensorflow/tensorboard/issues/2438）所以还是要安装tensorflow.

3. 安装tensorflow

之所以大费周章，是因为tensorflow对cuda，python都又匹配要求，十分麻烦，既然避免不了也只能安装，见招拆招。先检查各种版本，我电脑上

GPU GTX1080

python 3.8

torchvision 0.6.0

pytorch 1.5.0

cuda10.2 cudnn 7.0

PS: 其实cuda 我之前安装了多个版本, 不过pytorch安装对应的是10.2

cuda 版本

然后直接安装tensorflow, 我原来用过多个版本的tensorflow1.0，后面的版本(至少我现在用的1.14)在安装的时候都自动安装了tensorboard，所以不需要单独安装tensorboard

pip install tensorflow

这里也可以明确版本号

pip install tensorflow = 1.14

或者使用conda安装, 理论上也可以，可能出错几率更小一些，但是我没有尝试过。

理论上安装已经完成了，但是如果tensorflow版本不对，会出现一些问题，比如我直接用pip没有明确版本号，结果

tensorflow 2.2.0

tensorboard 2.2.2

高版本很容易出错，不稳定不兼容问题频繁，在我运行tensorboard的时候就出现了一些问题

step 2: 运行

1. 选择可视化变量

在模型代码里面要选择可视化的变量，具体做法是首先import SummaryWriter, 这个就是定义一份名单，告诉tensorboard你要可视化哪些变量

from tensorboardX import SummaryWriter

然后明确一个 writer 去申明这些变量，把这些变量保存成一个event，可以理解为一份名单

writer=SummaryWriter(logdir=None， comment=''）

logdir 是 event 的存储路径, 默认在你代码运行目录下新建一个runs文件夹，每次 "run" 产生一个份名单（event) 存储成名为当前时间文件夹下的一个文件，runs/CURRENT_DATETIME_HOSTNAME

例如

runs\Jul03_10-46-30_DESKTOP-0H5RF/events.out.tfevents.1593791190.DESKTOP-0H5RFM1

通过改变logdir, 可以改变存储路径，也就不会新建runs文件夹

comment就是改变event存储的文件名，如果之前是CURRENT_DATETIME_HOSTNAME ,加了comment之后，比如comment=’51HAHA‘, 就会变成CURRENT_DATETIME_HOSTNAME51HAHA. 另外如果申明了logdir, comment就没有用了，可以直接用路径直接指定一个文件夹，比如

writer=SummaryWriter(logdir=’./runs/Jul03_10-46-30_Hahaha‘）

另外writer新建后要记得关闭避免资源浪费

writer.close()

writer.flush()

或者直接用with实现

with SummaryWriter(comment='Haha')as w:

w.add_graph(model, dummy_input,True)

tensorbord有多种添加变量方式，比如scalar等

writer.add_scalar("loss", total_loss, epoch)

申明变量名称，变量， iteration相当于你的x轴是什么

2. 打开tensorboard

重开一个Anaconda prompt命令行，激活环境

conda activate pytorch

输入命令打开tensorboard

tensorboard --logdir=your_log_dir --host 0.0.0.0 --port 6006

tensorboard --logdir=./log --host $SERVER_IP --port $SERVER_PORT

your_log_dir必须和之前writer的logdir完全一致，默认是./runs

为了避免麻烦，也可以写绝对路径； --host 是指定服务监听的IP， --port是指定服务的端口，在自己电脑上其实IP可以不用指定，remote的时候可能需要特别的IP

在自己电脑上直接

tensorboard --logdir=F:\projects\TRY\runs --port 6006

然后在浏览器里面打如网址

http://localhost:6006/

tensorboard就出来了

tensorboard 运行前

程序没运行前，会这样显示，运行后

tensorboard运行后

3. 几个小坑

由于tensorboard继承tensorflow的传统，版本不匹配问题一定存在。

比如说在安装完tensorflow后，运行

tensorboard --logdir=your_log_dir --host 0.0.0.0 --port 6006

虽然tensorboard成功运行了，但会给出这样的提示

load dynamic library 'cudart64_101.dll'; dlerror: cudart64_101.dll not found

Ignore above cudart dlerror if you do not have a GPU set up on your machine.

原因很简单，我cuda使用10.2，所以在10.2cuda里面没找到cudart64_101.dll

解决方法：

1. 我在网上看到有人直接把CUDA\v10.2\bin里面的cudart64_102.dll复制了一份，并且改名叫cudart64_101.dll和cudart64_102.dll放在一起，据说完美运行

2.因为我有多个cuda版本，包括10.1 我直接在10.1的bin里面找到了cudart64_101.dll，复制到了10.2的bin里面，问题就解决了

writer.add_graph不能使用，有两种情况

1. 使用pytorch的dataloader时，data包括输入的x和label，如果直接

example: pred = model(data)

add_graph(model, data)

会报错

RuntimeError: Type 'Tuple[Tensor, bool]' cannot be traced. Only Tensors and (possibly nested) Lists, Dicts, and Tuples of Tensors can be traced (toTraceableIValue at ../torch/csrc/jit/pybind_utils.h:298)

必须把模型的输入改成x, y