一、数据样本:vocab100.csv
样本数据分享:
- 链接: https://pan.baidu.com/s/1LOhOgR8bpAaMNa9EttdOEg 提取码: cvgm 复制这段内容后打开百度网盘手机App,操作更方便哦。
二、编写py脚本:vim demo3.py
word embedding可视化分析:通过使用tensorboard可视化嵌入的词向量。
- 脚本内容:
1、实例化一个摘要写入对象。
2、随机初始化一个100*5的矩阵,认为它是我们已经得到的词嵌入矩阵:代表100个词汇,每个词汇被表示成50维的向量。
3、导入事先准备好的100个中文词汇文件,形成meta列表原始词汇。
import fileinput
import torch
import json
from torch.utils.tensorboard import SummaryWriter
"""
word embedding可视化分析:通过使用tensorboard可视化嵌入的词向量。
"""
# 实例化一个摘要写入对象
writer = SummaryWriter()
# 随机初始化一个100*5的矩阵,认为它是我们已经得到的词嵌入矩阵
# 代表100个词汇,每个词汇被表示成50维的向量
embedded = torch.randn(100, 50)
# 导入事先准备好的100个中文词汇文件,形成meta列表原始词汇
meta = list(map(lambda x: x.strip(), fileinput.FileInput(
"/Users/weixiujuan/study/text_preprocess/vocab100.csv")))
writer.add_embedding(embedded, metadata=meta)
writer.close()
三、执行py脚本:
➜ data python demo3.py
四、终端输入如下命令启动tensorboard服务:
➜ data tensorboard --logdir runs --host 0.0.0.0
五、浏览器打开所提示的网址即可看到可视化的词嵌入矩阵,使用右侧近邻词汇功能检测效果:
http://0.0.0.0:6007/
网友评论