simhash
分词,hash,加权,降维,拿到simhash;计算simhash的海明距离 试用长文本去重,效率高,顺序无关
编辑距离
a变成b的最小操作次数 精确的文字比较,效率低
Jaccard系数
交集大小比并集大小 适用元素类文字比较,顺序无关
最长公共子序列
精确对比,效率低
本文标题:文本去重
本文链接:https://www.haomeiwen.com/subject/numouqtx.html
网友评论