Hadoop企业优化

作者: 白纸糊 | 来源:发表于2019-02-25 19:25 被阅读60次

MapReduce 跑的慢的原因


image.png

MapReduce优化方法
MapReduce优化方法主要从六个方面考虑:数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数。
数据输入


image.png

Map阶段


image.png
Reduce阶段
image.png
image.png
image.png
image.png
image.png

HDFS小文件优化方法
6.3.1 HDFS小文件弊端
HDFS上每个文件都要在NameNode上建立一个索引,这个索引的大小约为150byte,这样当小文件比较多的时候,就会产生很多的索引文件,一方面会大量占用NameNode的内存空间,另一方面就是索引文件过大使得索引速度变慢。
6.3.2 HDFS小文件解决方案
小文件的优化无非以下几种方式:
(1)在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS。
(2)在业务处理之前,在HDFS上使用MapReduce程序对小文件进行合并。
(3)在MapReduce处理时,可采用CombineTextInputFormat提高效率


image.png

相关文章

  • Hadoop 企业优化

    1 MapReduce 跑的慢的原因 2 MapReduce 优化方法 MapReduce优化方法主要从六个方面考...

  • Hadoop企业优化

    6.1 MapReduce 跑的慢的原因 Mapreduce 程序效率的瓶颈在于两点: 1)计算机性能 CPU、内...

  • Hadoop企业优化

    MapReduce 跑的慢的原因 MapReduce优化方法MapReduce优化方法主要从六个方面考虑:数据输入...

  • 086-BigData-14MapReduce实战

    上一篇:085-BigData-13MapReduce案例分析 续上 六、Hadoop企业优化 1、MapRedu...

  • Hadoop5-Mapreduce shuffle及优化

    Hadoop-Mapreduce shuffle及优化 转载 MapReduce简介 在Hadoop MapRed...

  • Hadoop优化

    1.数据输入小文件处理a.合并小文件:对小文件进行归档、自定义inputFormat将小文件存储成sequence...

  • Hadoop优化

    1.开启带外心跳 mapred-site.xml 文件:mapreduce.tasktracker.outofba...

  • 码农周刊分类整理 -- H

    HADOOP [PPT] Hive 优化以及执行原理(杨新彦) 腾讯大规模 Hadoop 集群实践(翟艳堂) 系列...

  • Hadoop权威指南学习笔记

    Hadoop笔记: 1、combiner优化方案: combiner优化类似于reduce函数那样对本地数据进行处...

  • 【Hive】Hive 优化小结

    一、简述 Hadoop的核心能力是parition和sort,因而这也是优化的根本。 观察Hadoop处理数据的过...

网友评论

    本文标题:Hadoop企业优化

    本文链接:https://www.haomeiwen.com/subject/onfnyqtx.html