NLP自然语言处理-文本预处理-文本张量表示方法-word em

作者: 涓涓自然卷 | 来源:发表于2021-03-30 10:26 被阅读0次

NLP自然语言处理-文本预处理-文本张量表示方法-word em
word2vec概述
NLP入门（十）使用LSTM进行文本情感分析
文本表示: 从 One-Hot 到 Word2Vec
NLP科普文1——应用场景
自然语言处理
FromWord Embeddings To Document
NLP 文本预处理utils
文本匹配利器：从Siamse孪生网络到Sentence-BERT
从Siamse孪生网络到Sentence-BERT综述

一、数据样本：vocab100.csv

样本数据分享：

链接: https://pan.baidu.com/s/1LOhOgR8bpAaMNa9EttdOEg 提取码: cvgm 复制这段内容后打开百度网盘手机App，操作更方便哦。

二、编写py脚本：vim demo3.py

word embedding可视化分析：通过使用tensorboard可视化嵌入的词向量。

脚本内容：
1、实例化一个摘要写入对象。
2、随机初始化一个100*5的矩阵，认为它是我们已经得到的词嵌入矩阵：代表100个词汇，每个词汇被表示成50维的向量。
3、导入事先准备好的100个中文词汇文件，形成meta列表原始词汇。

import fileinput

import torch
import json
from torch.utils.tensorboard import SummaryWriter
"""
word embedding可视化分析：通过使用tensorboard可视化嵌入的词向量。
"""

# 实例化一个摘要写入对象
writer = SummaryWriter()

# 随机初始化一个100*5的矩阵，认为它是我们已经得到的词嵌入矩阵
# 代表100个词汇，每个词汇被表示成50维的向量
embedded = torch.randn(100, 50)

# 导入事先准备好的100个中文词汇文件，形成meta列表原始词汇
meta = list(map(lambda x: x.strip(), fileinput.FileInput(
    "/Users/weixiujuan/study/text_preprocess/vocab100.csv")))
writer.add_embedding(embedded, metadata=meta)
writer.close()