美文网首页
海量文档的去重

海量文档的去重

作者: 活着活法 | 来源:发表于2017-01-20 15:28 被阅读0次

    思路:

    1. 文本的向量化表示
      1.1 simhash
      在线去重 抽屉原理

      1.2 word2vec
      1.3 bagofwords(one-hot; tf-idf;)

    2. 海量 向量 相似度计算
      2.1. 分而治之:将发帖数据按照用户进行切分,对每个用户的帖子计算相似度(或按照城市进行切分)
      2.2 将文档进行倒排,以便分布式计算
      优点:对文档进行倒排,这样可以利用分布式计算;且解决向量稀疏性的问题。
      2.3 simhash + 抽屉原理 实时去重
      在线去重

    思考:

    1. 是否可以用HBASE,做分布式查重
    2. 是否有现成的库:https://my.oschina.net/dancing/blog/185114

    相关文章

      网友评论

          本文标题:海量文档的去重

          本文链接:https://www.haomeiwen.com/subject/eznwbttx.html