美文网首页
海量数据的处理

海量数据的处理

作者: 就这些吗 | 来源:发表于2020-01-06 00:21 被阅读0次

    教你如何迅速秒杀掉:99%的海量数据处理面试题
    处理topK,最多等问题
    1.分而治之(如果文件太大,一次性加不进内存,取hash取模分成小的)
    2.hashmap(主要是哈希函数的特性,内容不相同的哈希值相差甚远,可以用来计数,Hash取模是一种等价映射,不会存在同一个元素分散到不同小文件中的情况,即这里采用的是mod1000算法,那么相同的IP在hash取模后,只可能落在同一个文件中,不可能被分散的。因为如果两个IP相等,那么经过Hash(IP)之后的哈希值是相同的,将此哈希值取模(如模1000),必定仍然相等。)
    3.堆排序(TOPK问题的解决方案,最小堆)

    处理第K大、中位数、未重复
    不重复的:
    1.bitmap(比特为2的bitmap,00未出现,01出现一次,10出现多次,11无意义)
    中位数:
    2.int分为2^16个区域,统计各个区域中的次数,就知道在哪个区域了,然后在那个区域再进行统计

    处理两个文件中相同的url
    布隆过滤器

    Trie树 适用范围:数据量大,重复多,但是数据种类小可以放入内存

    相关文章

      网友评论

          本文标题:海量数据的处理

          本文链接:https://www.haomeiwen.com/subject/byjjnctx.html