美文网首页大数据,机器学习,人工智能人工智能
doc2vec计算句子相似度_3分钟热情学NLP第8篇

doc2vec计算句子相似度_3分钟热情学NLP第8篇

作者: 十三先 | 来源:发表于2021-02-24 10:00 被阅读0次

    3分钟热情学NLP第8篇,doc2vec计算句子相似度

    word2vec面临的问题

    word2vec计算句子或长文本的方法,大致的是:
    1、对文本进行分词;
    2、计算各个分词的词向量;
    3、对词向量取平均值,或者其他方式进行词向量的拼接。

    显而易见,这样的的计算方法的缺点是:丢失了文本之间的语序
    比如:我喜欢小明,小明喜欢我。这2句话,语义不一样;但是通过上面的分词+词向量的方法,向量值是相同的。

    因此,在word2vec的基础上,有研究人员提出了文本向量的概念doc2vec

    2、doc2vec文本向量

    Doc2vec方法是一种无监督算法,能从变长的文本(例如:句子、段落或文档)中学习得到固定长度的特征表示。Doc2vec也可以叫做 Paragraph Vector、Sentence Embeddings,它可以获得句子、段落和文档的向量表达,是Word2Vec的拓展,其具有一些优点,比如不用固定句子长度,接受不同长度的句子做训练样本。Doc2vec算法用于预测一个向量来表示不同的文档 ,该模型的结构潜在的克服了词袋模型的缺点。

    参考:https://zhuanlan.zhihu.com/p/136096645

    如下图所示:

    doc2vec算法
    论文原文:http://cs.stanford.edu/~quocle/paragraph_vector.pdf

    相关文章

      网友评论

        本文标题:doc2vec计算句子相似度_3分钟热情学NLP第8篇

        本文链接:https://www.haomeiwen.com/subject/gbrmtltx.html