美文网首页hadoop
MapReduce(四):压缩

MapReduce(四):压缩

作者: codeMover | 来源:发表于2021-12-10 23:05 被阅读0次

概述

1)压缩的好处和坏处

压缩的优点:以减少磁盘IO、减少磁盘储存空间

压缩的缺点:增加CPU开销

2)压缩的原则

(1)运算密集型的job,少用压缩

(2)IO密集型的JOb,所用压缩

MR支持的压缩编码

1)压缩算法对比介绍

压缩格式 Hadoop自带? 算法 文件扩展名 是否可切片 换成压缩格式后,<br />原来的程序是否需要修改
DEFLATE 是,直接使用 DEFLATE .deflate 和文本处理一样,不需要修改
Gzip 是,直接使用 DEFLATE .gz 和文本处理一样,不需要修改
bzip2 是,直接使用 bzip2 .bz2 和文本处理一样,不需要修改
LZO 否,需要安装 LZO .lzo 需要建索引,还需要指定输入格式
Snappy 是,直接使用 Snappy .snappy 和文本处理一样,不需要修改

压缩方式选择

Gzip压缩

优点:压缩率比较高

缺点:不支持Split;压缩/解压缩速度一般

Bzip2压缩

优点:压缩率高;支持Split

缺点:压缩/解压缩速度慢

Lzo压缩

优点:压缩/解压缩速度比较块;支持Split

缺点:压缩率一般;想支持切片需要额外创建索引

Snappy压缩

优点:压缩和解压缩速度快

缺点:不支持Split,压缩率一般

Gzio压缩

相关文章

  • MapReduce(四):压缩

    概述 1)压缩的好处和坏处 压缩的优点:以减少磁盘IO、减少磁盘储存空间 压缩的缺点:增加CPU开销 2)压缩的原...

  • Hive学习-高级版五(压缩和存储)

    hive的压缩本质上指的是MapReduce的压缩,因为hive其实就是MapReduce的高级语言版(SQL),...

  • 085-BigData-13MapReduce案例分析

    上一篇:084-BigData-12MapReduce入门 续上一篇 四、Hadoop数据压缩 1、概述 压缩技术...

  • mapreduce压缩

    1.压缩格式 2.Hadoop输出压缩 2.1 why? 2.2 压缩的应用场景 2.3 对比不仅如此,由于 ma...

  • MapReduce(十):压缩

    概述 1)压缩的好处和坏处 压缩的优点:以减少磁盘IO、减少磁盘储存空间 压缩的缺点:增加CPU开销 2)压缩的原...

  • HIVE

    --------hive 数据仓库 hive底层执行引擎有 MapReduce Tez Spark 压缩 GZI...

  • 大数据开发之Hive优化篇7-Hive的压缩

    备注:Hive 版本 2.1.1 一.Hive压缩概述 一般在hadoop集群上运行一个MapReduce会有以下...

  • MapReduce(四):MapReduce工作流程

    注意: 上面的流程是整个MapReduce最全工作流程,但是Shuffle过程只是从第7步开始到第16步结束,具体...

  • 大数据学习day_5

    思考问题 MapReduce总结 MapReduce MapReduce的定义MapReduce是一种编程模型, ...

  • MapReduce入门

    MapReduce 1.x架构、MapReduce2.x架构 MapReduce1.x架构 MapReduce2....

网友评论

    本文标题:MapReduce(四):压缩

    本文链接:https://www.haomeiwen.com/subject/qsbhfrtx.html