美文网首页大数据,机器学习,人工智能人工智能
Wrod2vec计算句子相似度_3分钟热情学NLP第6篇

Wrod2vec计算句子相似度_3分钟热情学NLP第6篇

作者: 十三先 | 来源:发表于2021-01-20 19:26 被阅读0次

    3分钟热情学NLP第6篇,Wrod2vec计算句子相似度

    参考文章:
    1、https://blog.csdn.net/joleoy/article/details/99741139
    2、https://www.zhihu.com/question/29978268

    1、无监督,句子相似度的计算方法

    无监督,即不需要额外的标注数据。
    通过词向量计算句子之间的相似度,大致有下面几种方法:

    1.1、求平均值

    比如一句话包含ABC共3个词汇,那么这句话的句向量值即为ABC的向量求和,再除以3;

    1.2、用TF-IDF值进行加权平均

    比如一句话包含ABC共3个词汇,结合A、B、C的TF-IDF值,进行加权平均,(A1.1+B0.5+C*2)除以3

    1.3,SIF加权平均

    平滑逆词频 (smooth inverse frequency, SIF),
    第1步:加权。类似于ID-IDF。SIF取句中词嵌入的平均权重,每个词嵌入都进行加权;
    第2步:去掉常见元素。

    摘自https://blog.csdn.net/ganxiwu9686/article/details/107209111
    SIF计算了句子的嵌入中最重要的元素。然后它减去这些句子嵌入中的主要成分。这就可以删除与频率和句法有关的变量,他们和语义的联系不大。

    1.4,词移距离Word Mover's Distance

    https://zhuanlan.zhihu.com/p/76004198

    WMD基于word2vec基础上通过计算文本间词的距离来衡量文本相似度的算法。
    把文本以BOW的方式录入,使用word2vec的词向量矩阵,获得录入文本的每个词的词向量。
    在衡量两个文本的相似度的时候,计算两个文本的词向量的距离。

    2、有监督,句子相似度的计算方法

    建立分类任务,训练1个CNN的文本分类器,取最后1个隐藏层订的输出作为词向量。

    相关文章

      网友评论

        本文标题:Wrod2vec计算句子相似度_3分钟热情学NLP第6篇

        本文链接:https://www.haomeiwen.com/subject/nixlzktx.html