美文网首页
NLP自然语言处理-文本预处理-文本张量表示方法-word em

NLP自然语言处理-文本预处理-文本张量表示方法-word em

作者: 涓涓自然卷 | 来源:发表于2021-03-30 10:26 被阅读0次

一、数据样本:vocab100.csv

样本数据分享:

二、编写py脚本:vim demo3.py

word embedding可视化分析:通过使用tensorboard可视化嵌入的词向量。

  • 脚本内容:
    1、实例化一个摘要写入对象。
    2、随机初始化一个100*5的矩阵,认为它是我们已经得到的词嵌入矩阵:代表100个词汇,每个词汇被表示成50维的向量。
    3、导入事先准备好的100个中文词汇文件,形成meta列表原始词汇。
import fileinput

import torch
import json
from torch.utils.tensorboard import SummaryWriter
"""
word embedding可视化分析:通过使用tensorboard可视化嵌入的词向量。
"""

# 实例化一个摘要写入对象
writer = SummaryWriter()

# 随机初始化一个100*5的矩阵,认为它是我们已经得到的词嵌入矩阵
# 代表100个词汇,每个词汇被表示成50维的向量
embedded = torch.randn(100, 50)

# 导入事先准备好的100个中文词汇文件,形成meta列表原始词汇
meta = list(map(lambda x: x.strip(), fileinput.FileInput(
    "/Users/weixiujuan/study/text_preprocess/vocab100.csv")))
writer.add_embedding(embedded, metadata=meta)
writer.close()

三、执行py脚本:

➜ data python demo3.py

四、终端输入如下命令启动tensorboard服务:

➜ data tensorboard --logdir runs --host 0.0.0.0

五、浏览器打开所提示的网址即可看到可视化的词嵌入矩阵,使用右侧近邻词汇功能检测效果:

http://0.0.0.0:6007/

六、可以在词嵌入矩阵界面看到相关信息,很神奇吧。

效果1.png 效果2.png

七、希望大家可以试试简单的代码,将文本进行可视化的嵌入矩阵,效果很神奇。

相关文章

网友评论

      本文标题:NLP自然语言处理-文本预处理-文本张量表示方法-word em

      本文链接:https://www.haomeiwen.com/subject/jfmwhltx.html