美文网首页
文本去重

文本去重

作者: 斐小洛 | 来源:发表于2019-03-05 17:32 被阅读0次

    simhash

    分词,hash,加权,降维,拿到simhash;计算simhash的海明距离
    试用长文本去重,效率高,顺序无关

    编辑距离

    a变成b的最小操作次数
    精确的文字比较,效率低

    Jaccard系数

    交集大小比并集大小
    适用元素类文字比较,顺序无关

    最长公共子序列

    精确对比,效率低

    相关文章

      网友评论

          本文标题:文本去重

          本文链接:https://www.haomeiwen.com/subject/numouqtx.html