美文网首页
文本相似

文本相似

作者: Ary_zz | 来源:发表于2020-01-11 11:16 被阅读0次

    2020-01-10

    杰卡德系数

    image.png

    1 - J(A,B)则被称为杰卡德距离,越大表明两个集合的相似度越小。

    TF-IDF + 余弦相似性

    • 计算TF(两种参考算法):
    • 词频TF = 某个词在文章中出现的次数/文章的总词数
    • 词频TF = 某个词在文章中出现的次数/文章中出现的最多的词出现的次数
    • 计算IDF:
      首先需要有一个语料库,来模拟语言的使用环境。
    • IDF = log(语料库的文档总数/包含该词的文档数+1)

    词袋模型和LSI模型

    词袋
    根据语料集,把所有的词都提取出来,编上序号,假设我们的语料集里有100个词,那么每个文章就是一个100维的向量:每个位置上的数字表示对应编号的词在该文章中出现的次数。

    LSI
    每篇文本中有多个概率分布不同的主题,每个主题中都包含所有已知词,但是这些词在不同主题中的概率分布不同,LSI通过奇异值分解的方法,计算文本中的各个主题的概率分布。这样做的好处是,我们的向量从词的维度下降到文本的主题的维度,维度更少,计算更快。

    相关文章

      网友评论

          本文标题:文本相似

          本文链接:https://www.haomeiwen.com/subject/obvpactx.html