doc2vec计算句子相似度_3分钟热情学NLP第8篇

作者: 十三先 | 来源:发表于2021-02-24 10:00 被阅读0次

3分钟热情学NLP第8篇，doc2vec计算句子相似度

word2vec面临的问题

word2vec计算句子或长文本的方法，大致的是：
1、对文本进行分词；
2、计算各个分词的词向量；
3、对词向量取平均值，或者其他方式进行词向量的拼接。

显而易见，这样的的计算方法的缺点是：丢失了文本之间的语序
比如：我喜欢小明，小明喜欢我。这2句话，语义不一样；但是通过上面的分词+词向量的方法，向量值是相同的。

因此，在word2vec的基础上，有研究人员提出了文本向量的概念doc2vec

2、doc2vec文本向量

Doc2vec方法是一种无监督算法，能从变长的文本（例如：句子、段落或文档）中学习得到固定长度的特征表示。Doc2vec也可以叫做 Paragraph Vector、Sentence Embeddings，它可以获得句子、段落和文档的向量表达，是Word2Vec的拓展，其具有一些优点，比如不用固定句子长度，接受不同长度的句子做训练样本。Doc2vec算法用于预测一个向量来表示不同的文档，该模型的结构潜在的克服了词袋模型的缺点。

参考：https://zhuanlan.zhihu.com/p/136096645

如下图所示：

doc2vec算法
论文原文：http://cs.stanford.edu/~quocle/paragraph_vector.pdf

网友评论

本文标题：doc2vec计算句子相似度_3分钟热情学NLP第8篇

本文链接：https://www.haomeiwen.com/subject/gbrmtltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

doc2vec计算句子相似度_3分钟热情学NLP第8篇

3分钟热情学NLP第8篇，doc2vec计算句子相似度

word2vec面临的问题

2、doc2vec文本向量

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据，机器学习，人工智能

人工智能