美文网首页
大数据算法之BitMap

大数据算法之BitMap

作者: 机器不能学习 | 来源:发表于2018-11-06 10:04 被阅读0次

大数据算法:在给定的资源约束下,以大数据为输入,在给定时间约束内可以计算出给定问题加过的算法

所谓的大数据算法,个人理解是在超大数据的情况下,进行的一种牺牲精准而得到时间空间的算法。

今天以BitMap进行入门。

其用处是统计数据。比如想验证用户是否签过到等。

基本原理

其基本原理并不难。

应用的就是一个byte数组,key是int的值,而value是一个byte值。一个byte有8个bit,一个bit可以代表一个数字的有无。那么一个亿的数据量大概12m就可以解决。用byte的好处是极大的节约了内存。

key值一般是具体的数字或者是字符串。他们都可以用取膜或者hash等算法,让他们映射到这个数组中。

需要注意的是,相同字符串或者数字应该使用同样的计算方式,这样保证第二次也能到达该key。

到达该key后,我们可以把value值从0变到1。表示该值来过。但是这里我们需要考虑一下字符串,因为字符串是通过hash计算,常见的hash问题就是碰撞问题。通过一层hash计算,有很大的概率会发生不同的字符串映射到同一个值(当然这个概率还取决于数组的大小)。

存在问题

存在的问题也很吐出,比如hash冲突和数组稀疏。

为了解决这些问题也诞生了相应的算法解决。

相关文章

  • 【算法与数据结构专场】BitMap算法基本操作代码实现

    上篇我们讲了BitMap是如何对数据进行存储的,没看过的可以看一下【算法与数据结构专场】BitMap算法介绍 这篇...

  • 大数据算法之BitMap

    大数据算法:在给定的资源约束下,以大数据为输入,在给定时间约束内可以计算出给定问题加过的算法 所谓的大数据算法,个...

  • No.14 【大数据算法】BitMap的原理和实现

    0x00 前言 本篇是大数据算法系列 第一篇《BitMap的原理和实现》,BitMap 的思想的和原理是很多算法的...

  • JAVA爬取URL,布隆算法去重

    布隆算法: 一种以BitSet(或BitMap)为基础的大数据排重算法,排重的数据类型为字符串。 实现原理(详情请...

  • 常用的算法和数据结构

    常用数据结构 bitmap 通过位图结构存储是否类型的海量数据,非常节约内存,同时查询、维护性能极高。 常用算法 ...

  • 学习笔记二:数据挖掘最佳路径--摘自陈旸课程

    一、数据挖掘的基本流程、十大算法、数学原理 A、分类算法:1、c4.5这个算法是得票最高的算法,可以说是十大算法之...

  • 数据结构与算法

    数据结构与算法之美 数据结构与算法之美1--如何学数据结构与算法之美2--复杂度分析(上)数据结构与算法之美3--...

  • 算法:BitMap

    BitMap 算法 引导 如果我们现在有一堆数据,[0 ,3 ,4 ,7 ,9 ,1 ,2 ,5 ,6 ,8 ,2...

  • 算法 - BitMap

    基本思想: 所谓的BitMap就是用一个bit位来标记某个元素所对应的value,而key即是该元素,由于BitM...

  • bitmap算法

    所谓bitmap算法就是,用一个bit来标记,当前元素是否或者存在这个标签。是标签和另外一个维度的映射关系。比如1...

网友评论

      本文标题:大数据算法之BitMap

      本文链接:https://www.haomeiwen.com/subject/lfmyxqtx.html