Hadoop压缩

作者: 叩丁狼教育 | 来源:发表于2019-04-19 11:50 被阅读0次

    本文作者:林伟兵,叩丁狼高级讲师。原创文章,转载请注明出处。

    1. 概述

    ​ 随着大数据时代的来临,数据体量越来越大,处理这些数据会越来越受到网络IO的限制,为了尽可能多的处理更多的数据我们必须使用压缩。

    ​ 压缩技术能够有效减少底层存储系统(HDFS) 读写字节数。压缩提高了网络带宽和磁盘空间的效率。在 Hadoop 下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。在这种情况下, I/O 操作和网络数据传输要花大量的时间。还有, Shuffle与 Merge 过程同样也面临着巨大的 I/O 压力。

    ​ 鉴于磁盘 I/O 和网络带宽是 Hadoop 的宝贵资源,数据压缩对于节省资源、最小化磁盘I/O 和网络传输非常有帮助。不过, 尽管压缩与解压操作的 CPU 开销不高,其性能的提升和资源的节省并非没有代价。如果磁盘 I/O 和网络带宽影响了 MapReduce 作业性能,在任意 MapReduce 阶段启用压缩都可以改善端到端处理时间并减少 I/O 和网络流量。

    2. 四种压缩

    1.gzip压缩

    优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自带gzip命令,使用方便。

    缺点:不支持split。

    应用场景:当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip压缩格式。譬如说一天或者一个小时的日志压缩成一个gzip 文件,运行mapreduce程序的时候通过多个gzip文件达到并发。hive程序,streaming程序,和java写的mapreduce程序完 全和文本处理一样,压缩之后原来的程序不需要做任何修改。

    2.lzo压缩

    优点:压缩/解压速度也比较快,合理的压缩率;支持split,是hadoop中最流行的压缩格式;支持hadoop native库;可以在linux系统下安装lzop命令,使用方便。

    缺点:压缩率比gzip要低一些;hadoop本身不支持,需要安装;在应用中对lzo格式的文件需要做一些特殊处理(为了支持split需要建索引,还需要指定inputformat为lzo格式)。

    应用场景:一个很大的文本文件,压缩之后还大于200M以上的可以考虑,而且单个文件越大,lzo优点越越明显。

    3.snappy压缩

    优点:高速压缩速度和合理的压缩率;支持hadoop native库。

    缺点:不支持split;压缩率比gzip要低;hadoop本身不支持,需要安装;linux系统下没有对应的命令。

    应用场景:当mapreduce作业的map输出的数据比较大的时候,作为map到reduce的中间数据的压缩格式;或者作为一个mapreduce作业的输出和另外一个mapreduce作业的输入。

    4.bzip2压缩

    优点:支持split;具有很高的压缩率,比gzip压缩率都高;hadoop本身支持,但不支持native;在linux系统下自带bzip2命令,使用方便。

    缺点:压缩/解压速度慢;不支持native。

    应用场景:适合对速度要求不高,但需要较高的压缩率的时候,可以作为mapreduce作业的输出格式;或者输出之后的数据比较大,处理之后的数据 需要压缩存档减少磁盘空间并且以后数据用得比较少的情况;或者对单个很大的文本文件想压缩减少存储空间,同时又需要支持split,而且兼容之前的应用程 序(即应用程序不需要修改)的情况。

    叩丁狼教育.png

    总结:压缩比:bzip2 > gzip > lzo > snappy ,压缩速度:snappy > lzo> gzip > bzip2

    3. 常用的编码器

    Zlib:org.apache.hadoop.io.compress.DefaultCodec
    Gzip:org.apache.hadoop.io.compress.GzioCodec
    Bzip2:org.apache.hadoop.io.compress.Bzip2Codec
    Lzo:com.apache.compression.lzo.LzoCodec
    Lz4:org.apache.hadoop.io.compress.Lz4Codec
    Snappy:org.apache.hadoop.io.compress.SnappyCodec
    

    4. 压缩实战

    4.1 hadoop的压缩

    1.修改core-site.xml配置文件

    <property>
        <name>io.compression.codecs</name>
        <value>
            org.apache.hadoop.io.compress.GzipCodec,
            org.apache.hadoop.io.compress.DefaultCodec,
            org.apache.hadoop.io.compress.BZip2Codec,
        </value>
    </property>
    

    2.修改mapred-site.xml配置文件

    <property>
        <name>io.compression.codecs</name>
        <value>
            org.apache.hadoop.io.compress.GzipCodec,
            org.apache.hadoop.io.compress.DefaultCodec,
            org.apache.hadoop.io.compress.BZip2Codec,
        </value>
    </property>
    

    3.修改mapred-site.xml配置文件

    <property>
        <name>mapreduce.output.fileoutputformat.compress</name>
        <value>true</value>
    </property>
    <property>
        <name>mapreduce.output.fileoutputformat.compress.codec</name>
        <value>org.apache.hadoop.io.compress.BZip2Codec</value>
    </property>
    

    4.2 MapReduce测试

    [hadoop@hadoop01 ~]$ cd app/hadoop-2.6.0-cdh5.7.0/share/hadoop/mapreduce/
    [hadoop@hadoop01 mapreduce]$ hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar wordcount /tmp/input.txt /tmp/compression-out/
    ...
    [hadoop@hadoop01 mapreduce]$
    

    查看结果,输出结果的压缩格式为.bz2,与配置文件一致

    [hadoop@hadoop01 mapreduce]$ hdfs dfs -ls /tmp/compression-out/
    Found 2 items
    -rw-r--r--   1 hadoop supergroup          0 2018-08-13 20:01 /tmp/compression-out/_SUCCESS
    -rw-r--r--   1 hadoop supergroup         65 2018-08-13 20:01 /tmp/compression-out/part-r-00000.bz2
    [hadoop@hadoop01 mapreduce]$ hdfs dfs -text /tmp/compression-out/part-r-00000.bz2
    18/08/13 20:02:53 INFO bzip2.Bzip2Factory: Successfully loaded & initialized native-bzip2 library system-native
    18/08/13 20:02:53 INFO compress.CodecPool: Got brand-new decompressor [.bz2]
    data    1
    is  2
    sample  1
    test    2
    this    2
    [hadoop@hadoop01 mapreduce]$ 
    

    4.3 压缩位置选择

    压缩可以在 MapReduce 作用的任意阶段启用。

    叩丁狼教育.png

    4.4 hive的压缩

    ​ Hive的建表语句里面有一个STORED AS file_format结合使用的方法,指定hive的存储格式。不仅能节省hive的存储空间,还可以提高执行效率。

    不压缩

    在hive创建一张不压缩的表,把数据导进去

    hive> create table test1(
        > c1 string,
        > c2 string,
        > c3 string,
        > c4 string,
        > c5 string)
        > row format delimited fields terminated by '||';
    OK
    Time taken: 0.716 seconds
    hive> load data local inpath '/home/hadoop/data/20180813000203.txt' overwrite into table test1;
    hive> select count(1) from test1;
    OK
    76241
    Time taken: 20.67 seconds, Fetched: 1 row(s)
    hive>
    

    此时hdfs上查看一下文件的大小

    [hadoop@hadoop01 data]$ hdfs dfs -du -s -h /user/hive/warehouse/test1
    37.4 M  37.4 M  /user/hive/warehouse/test1
    
    [hadoop@hadoop01 data]$
    

    bzip2压缩

    在hive创建一张bzip2的表,把数据导进去(查看hive怎么压缩,打开hive官网,点击compression)

    查看hive当前的压缩格式,默认是不压缩的

    hive> SET hive.exec.compress.output;
    hive.exec.compress.output=false
    hive> 
    

    查看hive当前的codec,默认是bzip2

    hive> SET mapreduce.output.fileoutputformat.compress.codec;
    mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.BZip2Codec
    hive> 
    

    设置一下压缩格式为bzip2,codec也为bzip2,并且创建一张表

    hive> SET hive.exec.compress.output=true;
    hive> SET mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.BZip2Codec;
    hive> create table test1_bzip2
        > row format delimited fields terminated by '||'
        > as select * from test1;
    

    去hdfs上查看文件的大小,文件大小由最初的37.4M变成了450.0K(这里bzip2的压缩比应该是30%左右,因为我的数据本身有很多重复,所以压缩后体积缩小非常大),hdfs上存储的格式也变成了.bz2

    [hadoop@hadoop01 data]$ hdfs dfs -du -s -h /user/hive/warehouse/test1_bzip2
    450.0 K  450.0 K  /user/hive/warehouse/test1_bzip2
    [hadoop@hadoop01 data]$ hdfs dfs -ls /user/hive/warehouse/test1_bzip2
    Found 1 items
    -rwxr-xr-x   1 hadoop supergroup     460749 2018-08-13 20:32 /user/hive/warehouse/test1_bzip2/000000_0.bz2
    

    想获取更多技术干货,请前往叩丁狼官网:http://www.wolfcode.cn/all_article.html

    相关文章

      网友评论

        本文标题:Hadoop压缩

        本文链接:https://www.haomeiwen.com/subject/uhqnwqtx.html