美文网首页
2017 · ICLR · EFFICIENT VECTOR R

2017 · ICLR · EFFICIENT VECTOR R

作者: HelloShane | 来源:发表于2018-09-24 12:00 被阅读0次

    2017 · ICLR · EFFICIENT VECTOR REPRESENTATION FOR DOCUMENTS THROUGH CORRUPTION

    想法来源:文档表示效果差,效率低。

    价值:提出一种新的文档表示方法,提升效率和结果表现。证明了所采用的方法可以看做是正则化。

    方法:随机从文档中选词来平均作为文档表示。

    缺点

    详细方案

    -c500 -c500

    如图所示,前三个单词是上下文单词,后面的三个词用来组成global document context,这三个单词是从文档中随机选出来的mask-out/drop-out,选出来之后对每个词的每个维度做如下操作,然后加权平均。


    -c350 -c450

    T是文档长度。最后的损失函数:


    -c500

    训练出来的文档表示:

    -c200

    数据集

    1. IMDB
    2. 原始Word2Vec文章中的dataset


      -c450

    实验

    • 分类问题准确率和时间消耗


      image
      image
    • 最接近0的词


      image
    • 在word2vec的数据集上测试语义和语法准确率

    image
    image
    • embedding维度影响
    image
    • 训练doc2vec的最后类别表示


      image

    相关文章

      网友评论

          本文标题:2017 · ICLR · EFFICIENT VECTOR R

          本文链接:https://www.haomeiwen.com/subject/kzbcoftx.html