美文网首页
NLP自然语言处理-文本预处理-文本张量表示方法-word em

NLP自然语言处理-文本预处理-文本张量表示方法-word em

作者: 涓涓自然卷 | 来源:发表于2021-03-30 10:26 被阅读0次

    一、数据样本:vocab100.csv

    样本数据分享:

    二、编写py脚本:vim demo3.py

    word embedding可视化分析:通过使用tensorboard可视化嵌入的词向量。

    • 脚本内容:
      1、实例化一个摘要写入对象。
      2、随机初始化一个100*5的矩阵,认为它是我们已经得到的词嵌入矩阵:代表100个词汇,每个词汇被表示成50维的向量。
      3、导入事先准备好的100个中文词汇文件,形成meta列表原始词汇。
    import fileinput
    
    import torch
    import json
    from torch.utils.tensorboard import SummaryWriter
    """
    word embedding可视化分析:通过使用tensorboard可视化嵌入的词向量。
    """
    
    # 实例化一个摘要写入对象
    writer = SummaryWriter()
    
    # 随机初始化一个100*5的矩阵,认为它是我们已经得到的词嵌入矩阵
    # 代表100个词汇,每个词汇被表示成50维的向量
    embedded = torch.randn(100, 50)
    
    # 导入事先准备好的100个中文词汇文件,形成meta列表原始词汇
    meta = list(map(lambda x: x.strip(), fileinput.FileInput(
        "/Users/weixiujuan/study/text_preprocess/vocab100.csv")))
    writer.add_embedding(embedded, metadata=meta)
    writer.close()
    
    

    三、执行py脚本:

    ➜ data python demo3.py

    四、终端输入如下命令启动tensorboard服务:

    ➜ data tensorboard --logdir runs --host 0.0.0.0

    五、浏览器打开所提示的网址即可看到可视化的词嵌入矩阵,使用右侧近邻词汇功能检测效果:

    http://0.0.0.0:6007/

    六、可以在词嵌入矩阵界面看到相关信息,很神奇吧。

    效果1.png 效果2.png

    七、希望大家可以试试简单的代码,将文本进行可视化的嵌入矩阵,效果很神奇。

    相关文章

      网友评论

          本文标题:NLP自然语言处理-文本预处理-文本张量表示方法-word em

          本文链接:https://www.haomeiwen.com/subject/jfmwhltx.html