2017 · ICLR · EFFICIENT VECTOR REPRESENTATION FOR DOCUMENTS THROUGH CORRUPTION
想法来源:文档表示效果差,效率低。
价值:提出一种新的文档表示方法,提升效率和结果表现。证明了所采用的方法可以看做是正则化。
方法:随机从文档中选词来平均作为文档表示。
缺点:
详细方案:
如图所示,前三个单词是上下文单词,后面的三个词用来组成global document context,这三个单词是从文档中随机选出来的mask-out/drop-out,选出来之后对每个词的每个维度做如下操作,然后加权平均。
-c350 -c450
T是文档长度。最后的损失函数:
-c500
训练出来的文档表示:
-c200数据集:
- IMDB
-
原始Word2Vec文章中的dataset
-c450
实验:
-
分类问题准确率和时间消耗
image
image -
最接近0的词
image -
在word2vec的数据集上测试语义和语法准确率
image
- embedding维度影响
-
训练doc2vec的最后类别表示
image
网友评论