美文网首页
Hadoop优化

Hadoop优化

作者: scott_alpha | 来源:发表于2019-09-29 11:17 被阅读0次

1.数据输入小文件处理
a.合并小文件:对小文件进行归档、自定义inputFormat将小文件存储成sequenceFile文件
b.采用CombineFileInputFormat来作为输入,解决输入端大量小文件场景
c.对于大量小文件job,可以开启JVM重用
2.map阶段
a.增大环形缓冲区大小,由100M扩大到200M
b.增大环形缓冲区溢写的比例,由80%扩大到90%
c.减少对溢写文件的merge次数
d.不影响实际业务的前提下,采用combiner提前合并,减少IO
3.reduce阶段
a.合理设置map和reduce数:两个都不能设置太多或者太少。太少,会导致task等待,延长处理时间;太多,会导致map、reduce任务间竞争资源,造成处理超时等错误。
b.设置map、reduce共存:调整slowstart、completedmaps参数,使map运行到一定程度后,reduce也开始运行,减少reduce的等待时间。
c.规避使用reduce,因为reduce在用于连接数据集的时候会产生大量的网络消耗
d.增加每个reduce去map中拿数据的并行数
e.集群性能可以的前提下,增大reduce端存储数据内存的大小
4.IO传输
a.采用数据压缩的方式,减少网络IO的时间。安装snappy和lzo压缩编码器
b.使用sequenceFile二进制文件
5.整体
a.map task默认内存为1G,可以增加map task内存大小为4-5G
b.reduce task默认内存大小为1G,可以增加reduce task内存大小为4-5G
c.可以增加maptask的CPU核数,增加reduce task的CPU核数
d.增加每个container的CPU核数和内存大小
e.调整每个map task和reduce task最大重试次数

相关文章

  • Hadoop5-Mapreduce shuffle及优化

    Hadoop-Mapreduce shuffle及优化 转载 MapReduce简介 在Hadoop MapRed...

  • Hadoop优化

    1.数据输入小文件处理a.合并小文件:对小文件进行归档、自定义inputFormat将小文件存储成sequence...

  • Hadoop优化

    1.开启带外心跳 mapred-site.xml 文件:mapreduce.tasktracker.outofba...

  • 码农周刊分类整理 -- H

    HADOOP [PPT] Hive 优化以及执行原理(杨新彦) 腾讯大规模 Hadoop 集群实践(翟艳堂) 系列...

  • Hadoop权威指南学习笔记

    Hadoop笔记: 1、combiner优化方案: combiner优化类似于reduce函数那样对本地数据进行处...

  • 【Hive】Hive 优化小结

    一、简述 Hadoop的核心能力是parition和sort,因而这也是优化的根本。 观察Hadoop处理数据的过...

  • 大数据之HIVE的优化

    理解 hadoop的核心能力,是 hive优化的根本 长期观察Hadoop处理数据的过程,有几个显著的特征: 1....

  • 大数据之路

    7个例子全面掌握Hadoop MR深入理解与应用Hadoop中的MapReducehive总结与优化hive笔试题...

  • 第9章 Hadoop再探讨

    9.1 Hadoop的优化与发展 9.1.1 Hadoop1.0的局限与不足 (1)抽象层次低:简单任务也要很复杂...

  • Hadoop 优化配置

    (1) mapreduce.map.memory.mb: 一个Map Task可使用的资源上限(单位:MB),默认...

网友评论

      本文标题:Hadoop优化

      本文链接:https://www.haomeiwen.com/subject/qzgtpctx.html