美文网首页
(12)海量数据处理

(12)海量数据处理

作者: 顽皮的石头7788121 | 来源:发表于2019-03-13 11:23 被阅读0次

海量数据处理主要涉及分治算法,其中包含排序、求TopK、以及查找重复的问题

(1)Top K

算法思路:
(1) 局部淘汰,用一个容器保存1000个,逐步遍历剩下的
(2) 分治,分100个文件
(3) Hash法去掉重复的
(4) 小顶堆

(2)重复问题

算法思路:
(1) 位图
(2) 布隆过滤器——比哈希表好,结构没有那么复杂。占用空间少
结合了位图和Hash表两者的优点,位图的优点是节省空间,但是只能处理整型值一类的问题,无法处理字符串一类的问题,而Hash表却恰巧解决了位图无法解决的问题
(3) 分治和位图

(3)排序问题

算法思路:
分治和位图。

相关文章

  • (12)海量数据处理

    海量数据处理主要涉及分治算法,其中包含排序、求TopK、以及查找重复的问题 (1)Top K 算法思路:(1) 局...

  • 面对海量的数据,我们应该如何处理?

    一、海量数据处理 所谓海量数据处理,无非就是基于海量数据上的存储、处理、操作。何谓海量,就 是数据量太大,所以导致...

  • 10.28

    看海量数据处理部分题目 学习python面向对象

  • 海量数据处理

    1 数值topK问题:给出n个数中最大的k个数 1.1 若能全部读入内存 1,快速排序+二分。O(n)2,冒泡排序...

  • 海量数据处理

    1.一个文件中,存储有10亿个单词(数字+字母组成,每个单词小于16Byte),每行一个,求出现频率最高的10个单...

  • 海量数据处理

    1.海量日志数据,提取出某日访问百度次数最多的那个IP 算法思想:分而治之+Hash 换言之,先映射,而后统计,最...

  • 海量数据处理

    面试题 海量日志数据,提取出某日访问百度次数最多的那个IP 首先是这一天,并且是访问百度的日志中的IP取出来,逐个...

  • 海量数据处理

    相关文章 海量数据处理之经典实例分析top k 问题中各种场景分析的很好: 单机+单核+足够大内存单机+多核+足够...

  • 海量数据处理

    topk问题

  • 海量数据处理

    处理海量数据的常规思路 分而治之/Hash映射 + Hash_map统计 + 堆/快速/归并排序 1、海量日志数据...

网友评论

      本文标题:(12)海量数据处理

      本文链接:https://www.haomeiwen.com/subject/bkdzpqtx.html