海量数据的处理

作者: 就这些吗 | 来源:发表于2020-01-06 00:21 被阅读0次

教你如何迅速秒杀掉：99%的海量数据处理面试题
处理topK，最多等问题
1.分而治之（如果文件太大，一次性加不进内存，取hash取模分成小的）
2.hashmap（主要是哈希函数的特性，内容不相同的哈希值相差甚远，可以用来计数，Hash取模是一种等价映射，不会存在同一个元素分散到不同小文件中的情况，即这里采用的是mod1000算法，那么相同的IP在hash取模后，只可能落在同一个文件中，不可能被分散的。因为如果两个IP相等，那么经过Hash(IP)之后的哈希值是相同的，将此哈希值取模（如模1000），必定仍然相等。）
3.堆排序（TOPK问题的解决方案，最小堆）

处理第K大、中位数、未重复
不重复的：
1.bitmap（比特为2的bitmap，00未出现，01出现一次，10出现多次，11无意义）
中位数：
2.int分为2^16个区域，统计各个区域中的次数，就知道在哪个区域了，然后在那个区域再进行统计

处理两个文件中相同的url
布隆过滤器

Trie树适用范围：数据量大，重复多，但是数据种类小可以放入内存

网友评论

本文标题：海量数据的处理

本文链接：https://www.haomeiwen.com/subject/byjjnctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

海量数据的处理

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读