Hive压缩与配置

作者: 心_的方向 | 来源:发表于2016-11-07 19:47 被阅读1553次

优点

在Hadoop集群中,有大量的数据复制和移动操作,压缩过后可以减少文件的大小,从而可以减少磁盘和网络的I/O。

压缩格式

常见的有gzip、bzip2、lzo、snappy、lz4等压缩算法。一般来说,好的压缩算法都是在解压缩的时间和压缩率上有不同的权衡。比如说:snappy压缩算法虽然压缩率不高,但是解压缩的时间相对于前两个更短。在hadoop中的压缩格式需要支持分割(一个文件可以被压缩成几个文件,并且每个压缩文件可以单独解压),这样可以交给多个map任务处理。

Hive的压缩配置

**以配置snappy为例 **

  1. 因为Hive是以Hadoop框架为基础的,所以先要查看hadoop是否支持snappy压缩。
    使用下面的命令查看hadoop当前支持的压缩。可以发现默认情况下不支持snappy。
    [wulei@bigdata-00 hadoop-2.5.0]$ bin/hadoop checknative
    1.png
  2. 编译Snappy
    具体编译流程见:http://www.micmiu.com/bigdata/hadoop/hadoop-snappy-install-config/
  3. 检查是否编译成功


    2.png
  4. 在mapreduce中配置压缩
    首先说明mapreduce哪些过程可以设置压缩:需要分析处理的数据在进入map前可以压缩,然后解压处理,map处理完成后的输出可以压缩,这样可以减少网络I/O(reduce通常和map不在同一节点上),reduce拷贝压缩的数据后进行解压,处理完成后可以压缩存储在hdfs上,以减少磁盘占用量。


    4.png
  5. 在Hive中设置压缩
    因为有的hive语句是嵌套的,可以对hive的中间结果集也设置压缩
    hive.exec.compress.intermediate=true
    开启压缩
    mapreduce.map.output.compress=true
    配置压缩格式
    mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec
  6. 因为Hive底层用的mapreduce,也可以直接在hadoop中对mapred-site.xml进行配置
        <!-- map输出压缩 -->
        <property>
                <name>mapreduce.map.output.compress</name>
                <value>true</value>
        </property>
        <property>
                <name>mapreduce.map.output.compress.codec</name>
                <value>org.apache.hadoop.io.compress.SnappyCodec</value>
        </property>
        <!-- reduce输出压缩 -->
        <property>
                <name>mapreduce.output.fileoutputformat.compress</name>
                <value>true</value>
        </property>
        <property>
                <name>mapreduce.output.fileoutputformat.compress.codec</name>
                <value>org.apache.hadoop.io.compress.SnappyCodec</value>
        </property>

相关文章

  • Hive安装

    Hive 安装与配置 hive安装 下载压缩包 下载地址 解压压缩包 配置环境变量 /etc/profile 检查...

  • Hive压缩与配置

    优点 在Hadoop集群中,有大量的数据复制和移动操作,压缩过后可以减少文件的大小,从而可以减少磁盘和网络的I/O...

  • hive的学习

    文档地址 一、上传并解压hive压缩包 二、配置文件 三、修改配置文件 四、启动hive

  • Hive安装与配置

    Hive安装与配置 Hive安装配置 Hive官网:http://hive.apache.org[http://h...

  • Spark on Hive配置踩坑全纪录

    Spark与Hive的分别安装与配置 可以参考Spark On Hive 部署和配置和Hive安装配置指南(含Hi...

  • HIve 配置LZO压缩

    1.下载lzo源码包,然后进行编译,下载lzo的源码包地址https://github.com/twitter/h...

  • 21 sparkSQL

    sparkSQL服务架构 sparkSQL与Hive集成 1需要配置的项目 1、拷贝hive的配置文件 Hive-...

  • HIVE调优

    一 .hive的压缩方案介绍 在hive中一般推荐使用压缩方式:1.1 ) SNAPPY 速度最快(最常用的压缩方...

  • Hive的安装与配置

    一、安装与配置hive 安装hive之前需要到官网查询hive与Hadoop版本的兼容性。这里我所选的hive和H...

  • Hive学习-高级版五(压缩和存储)

    hive的压缩本质上指的是MapReduce的压缩,因为hive其实就是MapReduce的高级语言版(SQL),...

网友评论

    本文标题:Hive压缩与配置

    本文链接:https://www.haomeiwen.com/subject/ekbouttx.html