美文网首页
实习日记:海量中文文本数据去重 算法及实现

实习日记:海量中文文本数据去重 算法及实现

作者: SHAN某人 | 来源:发表于2018-01-10 18:41 被阅读910次

在某视频公司实习的时候遇到一个问题,也不算海量吧,200万左右的短中文文本数据去重,然后在Elasticsearch中重建索引。

感谢参考链接中提到还有很多没有提到的博客文章的技术分享,小白小生还是学到了不少东西,在这里做一下记录。

文本去重有两策略,其一是通过 MD5 等给文本生成数字证书,这样做 叫 “一致性” check。其二是 计算文本间的相似度,这种做法 是 “相似性” check

显然 “一致性” check 并不能很好的满足 文本查重去重,而对于 “相似性” check,有很多经典的算法

段子评论去重

去重本应该根据相似度去重的,根据的算法原理为 simhash 和抽屉原理,simhash 加海明距离 确定是否相似,一般认为海明距离在4以内(小于等于3)为相似,我们的数据大概在 200万条,如果一一比较海明,时间复杂度是挺大的,在 (1+n)n/2 O(n^2),利用抽屉原理,<K,V>数据库存四份,每份K 为 16 bit 的hash 码值,一共 2^16个K值,V为对应 K的剩下三个 16bit 的list 链,这时如果来了一个新的 64 bit 的simhash码,分成四份,遍历四份<K,V> 数据库,如果都没找到相同的K,则可以认为改文本在库中没有相似文本,然后将其put 进四份<K,V>数据库中,若找到相同的K,则遍历比较V上的list 的海明距离,若海明距离在4以内则丢弃。采用这种做法时间 需要利用额外的空间,这个空间只利用内存来做在 10G左右,所以需要额外的数据库辅助,好处是降低了时间成本。

海明距离
两个码字的对应比特取值不同的比特数称为这两个码字的海明距离。在一个有效编码集中,任意两个码字的海明距离的最小值称为该编码集的海明距离。举例如下:10101和00110从第一位开始依次有第一位、第四、第五位不同,则海明距离为3。

参考链接:

经典算法1---相似度--模糊查询,查抄袭,语言识别
短文本合并重复(去重)的简单有效做法
海量数据相似度计算之simhash短文本查找
我的数学之美系列二 —— simhash与重复信息识别
海量数据相似度计算之simhash和海明距离
LSH 位置敏感哈希算法
http://blog.csdn.net/al_xin/article/details/38919361
https://zhuanlan.zhihu.com/p/22936654
http://blog.csdn.net/heiyeshuwu/article/details/69706414

相关文章

  • 实习日记:海量中文文本数据去重 算法及实现

    在某视频公司实习的时候遇到一个问题,也不算海量吧,200万左右的短中文文本数据去重,然后在Elasticsearc...

  • 算法

    图像算法:图片特征提取图片质量评价图像分类打标签消重等技术研发 推荐算法:海量用户画像的构建及优化维护和改进文本挖...

  • 倪江利:魅族推荐平台的架构演进之路

    摘要:魅族拥有超大规模的用户量及海量数据,魅族推荐平台实现了在海量的数据中对算法模型进行在线及离线训练,在高并发的...

  • simHash海量文本去重

    simHash是google提出的用于计算海量文本相似度的算法:(1) 分词 => word(2) 单词权重 tf...

  • simhash算法原理及实现

    simhash是google用来处理海量文本去重的算法。 google出品,你懂的。 simhash最牛逼的一点就...

  • 海量数据去重

    一个文件中有40亿条数据,每条数据是一个32位的数字串,设计算法对其去重,相同的数字串仅保留一个,内存限制1G. ...

  • 海量文本去重simhash算法(python&scala)

    1.python(Numpy实现) 具体公式见reference中的论文。 短文本,如果文本很短,可以直接调用si...

  • 海量数据去重-精确去重[Bitmap]

    假如我们使用Bitmap(或称BitSet)储存,定义一个很大的bitmap数组,每个元素对应Bitmap中的1位...

  • 001 Bitmap和Bloom过滤器

    两个算法经常用于大数据规模下的去重,压缩,判断是否存在(避免直接扫描磁盘),排序等情况。海量数据的查询,判断是否存...

  • NLP算法工程师

    顺丰工作职责: 负责利用自然语言处理和机器学习算法对海量文本数据进行挖掘,包括但不限于,文本分词、分类、情感分析、...

网友评论

      本文标题:实习日记:海量中文文本数据去重 算法及实现

      本文链接:https://www.haomeiwen.com/subject/wpehvxtx.html