大数据

作者: 艾特大圣 | 来源:发表于2016-11-16 19:21 被阅读0次

hash分桶法

方法的本质是化大为小,用磁盘空间换内存空间

关键词:内存不足

本质:map-reduce思想
map阶段把数据map到不同的桶(机器)里,不同的机器处理子问题
reduce阶段将各个机器的结果汇总,得到结论

有一个超过100G大小的日志,从中找出出现次数最多的IP地址

如果内存足够大,这个问题该如何解决?不是top k,是top 1

用hash表就好了,以ip地址为key,以次数为value,扫描一遍hash表就可以了。

时间复杂度: O(N*read次数)
空间复杂度:O(不同的IP数量)
最大内存: 2^32个ip地址,每个用int保存,所以需要最多是 4G * 4 =16G的内存

如果内存不够怎么办?假设只有10m

大数据屡试不爽的方法是Hash分桶法,其实也是map reduce的思路

1、首先把100g的文件分成10000份,其实就是10000个桶;
2、然后把每个ip地址映射到一个桶里去,方法
file_id = hash(ip) % 10000
3、在每个文件中都找出出现频率最高的ip以及次数;
4、把这10000个最高频的ip进行合并,得到最终结果

时间复杂度:O(2n * read + nwrite)
空间复杂度:O(不同IP数量/10000)

和上题相同,不过要找top k

命令行方式
sort log_file | uniq -c | sort -nr k1,1 | head -10

HashMap+堆

把数据分发到不同桶
每个桶分别统计top k
最后top k 汇总

5亿个整数,找出不重复的数的个数

如何做distinct

还是hash分桶法,相同的数据肯定会被分到相同的桶里,然后分别统计每个桶中不同的数字的个数,最后汇总就可以了。
另外,这个题有个关键字——整数,所以我们可以按照整数的区间去做分桶,而不一定要用hash分桶。

类似题目:
给你一天的query log,找到最高频的top k个query
给qq登录数据,找到次数最多的qq号
给你购物数据,找出最多的物品

Bitmap

这是处理整数问题最有用的方法

给两个文件,分别有100亿个整数,只有1g内存,如何找到两个文件的交集

方法1:hash分桶法
如果不是数字,而是query、商品,这时可以用分桶法,因为相同的内容可能会被分到相同的桶里,所以我们就生成两组桶,然后桶桶合并就好了。

方法2:针对整数
hash法虽然有效,但是要借助外存。而这个问题有个关键字——整数,所以我们是可以用bitmap来做的。

关键字:整数,1g内存

bitmap思想:可以用每个二进制位代表一个数字是否出现。
一个int变量有32位,可以表示32个整数。
而全部的整数不过是 4G个。如果原样保存,需要4*4 =16G的内存。而现在表示全部整数需要 4g /32 =500m内存就够了。

一个文件有100亿个int,1g内存,找出出现次数不超过2次的所有整数。

思想还是一样:用bitmap,只是之前用1位表示一个数字的出现或者不出现,这次用2位表示一个数字的出现次数,0不出现、1出现1次,2出现2次或者以上。

Bloomfilter

有两个文件,分别有100亿个query,只有1g内存,如何找到两个文件的交集。

方法1:hash分桶法

缺点,频繁磁盘读写

方法2:bloomfilter
首先,bloomfilter是个近似算法,不是精确算法,所以,需要先确认,是需要近似解还是精确解。如果是精确解,就只能用hash分桶法。

位数组和k个独立的hash函数,将hash函数对应的位数组的位置置为1。

查找时,如果发现所有hash函数对应的位置都是1,就说明存在。
韩显然这个过程不能保证查找的结果都是100%的正确。

只能说在这里的一定能找到,但是找到的不一定真的在这里。

相关文章

  • 大型网站java中间件,总的来说就是cobar,roketmq,

    关键词记录 请求数据包小,返回数据大 ,差别不大 请求数据包大,返回数据小,差别大 代理 ----》热备 服务自治...

  • 数据大屏

    一、是什么 “可视化+实时+足够大” 将数据通过可视化形式实时显示在足够大的屏幕上。如图1所示: 二、为什么(作用...

  • 数据大屏 - guandata智能数据可视化分析

    数据大屏可视化可更直观更智能的决策场景体验,通过数据大屏实时监测企业数据,洞悉运营增长,助力智能高效决策。 数据大...

  • 海量数据找前k大

    海量数据找前k大 参考1 海量数据找前k大

  • 大数据是什么

    一、大数据概念 "大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对...

  • hadoop框架学习笔记一 2020-04-01

    1.1大数据概论 主要解决海量数据存储和海量数据的分析计算问题 1.2大数据的特点 * volume(大量) *v...

  • 报告总统(下)

    一、大数据时代的数据收集、分析 大数据之所以为”大“,有两个层面:其一、数据量大,海量数据;其二、分析规模大:由于...

  • 数据分析-003-数据指标

    数据指标 "对当前业务有参考价值的统计数据。" 三大数据 我们大致可以把数据分成三大类: 用户数据、行为数据、业务...

  • 一篇文章,让你对大数据有全新的掌握

    一、大数据概念 "大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进...

  • java

    数据类型分为:8大基础数据类型和3大引用数据类型。 基础数据类型和引用数据类型的区别: 1,基本数据类型变量声明之...

网友评论

      本文标题:大数据

      本文链接:https://www.haomeiwen.com/subject/gnhrpttx.html