(3)大数据 -- BitMap应用

作者: 菜six岁 | 来源:发表于2018-09-05 17:44 被阅读3次

    学会了BitMap的原理,所以我们一定要来好好折腾一下自己,没有环境也要创造环境搞事情


    image.png

    一、准备数据

    首先,用世界上最*的语言创建一个大文件

    <?php
    
        set_time_limit(0);
        $max = pow(2, 32) - 1;
        $count = 你喜欢多少就多少;
        while ($count > 0) {
            $arr = array();
            for ($i = 0; $i < 10000; ++$i) {
                $arr[] = mt_rand(0, $max);
            }
            $content = $count > 10000 ? implode(PHP_EOL, $arr) . PHP_EOL : implode(PHP_EOL, $arr);
            file_put_contents('./smalldata.txt', $content, FILE_APPEND);
            $count -= 10000;
            unset($arr);
        }
    

    // 别人高大上的大数据,我们这种民间作坊就叫小数据


    image.png

    生成了一个5g多的文件,我忘了当时写了多少个数据,大概5E左右个自然数吧。

    image.png

    二、思路以及方案

    A、

    既然是一行一个数字,那就要一行一行的读取文件(应该有一次读取多行的方法,不过我暂时没找到),然后set bit。空间确定限制在512MB+了,时间复杂度也是O(n)没跑了,但是一行一行的读取也确实比较慢,那么就用多线程减少一下时间好了。(实现多线程有几个方法,我这里用到了实现runnable接口这一种)

    B、

    首先给多个线程划分好读取文件的区域,第n行 ~ 第n + m行,这样就需要可以任意读取文件某一个位置的工具,这里用到了RandomAccessFile,先把文件大小除以线程个数确定大概范围,然后递归一个一个byte的地读,递归出口是读取到换行符或者到文件结尾。

    思路和方案大概就是这样,代码在我的gayhub上面,拉到最下面就是地址。

    C、

    其实靠上面两条就可以做出来了,不过这的要这样子做的话,效率会非常低,因为性能瓶颈都在IO流上,查了网上优化文件读取的方式,是用MappedByteBuffer。(我开始用了RandomAccessFile,后面查了发现它是一个一个byte的读,慢到爆炸)

    D、

    最后我开了4个线程去排序,花了差不多700s的时间


    image.png

    这是我用了差不多两个月的空余时间才做出来的,性能上一定还有很多优化的空间的,应该主要还是在IO流这块,不过我所以暂时不去优化它了,

    代码的gayhub地址:https://github.com/PHPerKael/BitMap/


    看完我的小数据,再看看别人家真正的大数据处理:

    2016年11月10日,具有计算奥运会之称的Sort Benchmark全球排序竞赛公布2016年最终成绩,腾讯云大数据联合团队用时不到99秒(98.8秒)就完成100TB的数据排序,打破了去年329秒的纪录。在更早前,百度创造的纪录是716秒,Hadoop的纪录是4222秒。


    image.png

    相关文章

      网友评论

        本文标题:(3)大数据 -- BitMap应用

        本文链接:https://www.haomeiwen.com/subject/kfwawftx.html