hadoop 调优措施调优参数

作者: 无来无去_A | 来源:发表于2020-07-28 20:24 被阅读0次

hadoop 调优措施调优参数
Hadoop参数调优
Mongodb简单优化
hadoop性能优化
Nginx负载调优总结
Spark(十八)JVM调优之原理概述以及降低cache操作的内
hadoop调优
大数据面试题整理 -- hadoop 部分(2)
JVM调优
18家大厂Java面试题整理了350道（分布式+微服务+高并发）

MapReduce 跑的慢的原因

image.png

MapReduce优化方法

MapReduce优化方法主要从六个方面考虑：数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数。

1.数据输入

image.png

2.Map阶段

image.png

3.Reduce阶段

image.png

4.I/O传输

image.png

5.数据倾斜问题

image.png

常用的调优参数

1．资源相关参数

（1）以下参数是在用户自己的MR应用程序中配置就可以生效（mapred-default.xml）

image.png

（2）应该在YARN启动之前就配置在服务器的配置文件中才能生效（yarn-default.xml）

image.png

（3）Shuffle性能优化的关键参数，应在YARN启动之前就配置好（mapred-default.xml）

image.png

2．容错相关参数(MapReduce性能优化)

image.png

项目经验之Hadoop参数调优

1）HDFS参数调优hdfs-site.xml
dfs.namenode.handler.count=20×〖log〗_e^(Cluster Size)，比如集群规模为8台时，此参数设置为41

The number of Namenode RPC server threads that listen to requests from clients. If dfs.namenode.servicerpc-address is not configured then Namenode RPC server threads listen to requests from all nodes.
NameNode有一个工作线程池，用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。
对于大集群或者有大量客户端的集群来说，通常需要增大参数dfs.namenode.handler.count的默认值10。
<property>
    <name>dfs.namenode.handler.count</name>
    <value>10</value>
</property>

2)YARN参数调优yarn-site.xml

（1）情景描述：总共7台机器，每天几亿条数据，
数据源->Flume->Kafka->HDFS->Hive面临问题：数据统计主要用HiveSQL，
没有数据倾斜，小文件已经做了合并处理，开启的JVM重用，而且IO没有阻塞，内存用了不到50%。
但是还是跑的非常慢，而且数据量洪峰过来时，整个集群都会宕掉。基于这种情况有没有优化方案。
（2）解决办法：
内存利用率不够。这个一般是Yarn的2个配置造成的，单个任务可以申请的最大内存大小，和Hadoop单个节点可用内存大小。
调节这两个参数能提高系统内存的利用率。
（a）yarn.nodemanager.resource.memory-mb
表示该节点上YARN可使用的物理内存总量，默认是8192（MB），注意，如果你的节点内存资源不够8GB，
则需要调减小这个值，而YARN不会智能的探测节点的物理内存总量。
（b）yarn.scheduler.maximum-allocation-mb
单个任务可申请的最多物理内存量，默认是8192（MB）。

3)集群资源分配参数（项目中遇到的问题）
集群有30台机器，跑mr任务的时候发现5个map任务全都分配到了同一台机器上，这个可能是由于什么原因导致的吗？

解决方案：yarn.scheduler.fair.assignmultiple 这个参数默认是开的，需要关掉

https://blog.csdn.net/leone911/article/details/51605172

Hadoop宕机
1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存量，默认是8192MB）
2）如果写入文件过快造成NameNode宕机。那么调高Kafka的存储大小，控制从Kafka到HDFS的写入速度。例如，可以调整Flume每批次拉取数据量的大小参数batchsize。。

项目优化参考:

优化
1）Map阶段
（1）增大环形缓冲区大小。由100m扩大到200m
（2）增大环形缓冲区溢写的比例。由80%扩大到90%
（3）减少对溢写文件的merge次数。（10个文件，一次20个merge）
（4）不影响实际业务的前提下，采用Combiner提前合并，减少 I/O。
2）Reduce阶段
（1）合理设置Map和Reduce数：两个都不能设置太少，也不能设置太多。太少，会导致Task等待，延长处理时间；太多，会导致 Map、Reduce任务间竞争资源，造成处理超时等错误。
（2）设置Map、Reduce共存：调整slowstart.completedmaps参数，使Map运行到一定程度后，Reduce也开始运行，减少Reduce的等待时间。
（3）规避使用Reduce，因为Reduce在用于连接数据集的时候将会产生大量的网络消耗。
（4）增加每个Reduce去Map中拿数据的并行数
（5）集群性能可以的前提下，增大Reduce端存储数据内存的大小。
3）IO传输
采用数据压缩的方式，减少网络IO的的时间。安装Snappy和LZOP压缩编码器。
压缩：
（1）map输入端主要考虑数据量大小和切片，支持切片的有Bzip2、LZO。注意：LZO要想支持切片必须创建索引；
（2）map输出端主要考虑速度，速度快的snappy、LZO；
（3）reduce输出端主要看具体需求，例如作为下一个mr输入需要考虑切片，永久保存考虑压缩率比较大的gzip。
4）整体
（1）NodeManager默认内存8G，需要根据服务器实际配置灵活调整，例如128G内存，配置为100G内存左右，yarn.nodemanager.resource.memory-mb。
（2）单任务默认内存8G，需要根据该任务的数据量灵活调整，例如128m数据，配置1G内存，yarn.scheduler.maximum-allocation-mb。
（3）mapreduce.map.memory.mb ：控制分配给MapTask内存上限，如果超过会kill掉进程（报：Container is running beyond physical memory limits. Current usage:565MB of512MB physical memory used；Killing Container）。默认内存大小为1G，如果数据量是128m，正常不需要调整内存；如果数据量大于128m，可以增加MapTask内存，最大可以增加到4-5g。
（4）mapreduce.reduce.memory.mb：控制分配给ReduceTask内存上限。默认内存大小为1G，如果数据量是128m，正常不需要调整内存；如果数据量大于128m，可以增加ReduceTask内存大小为4-5g。
（5）mapreduce.map.java.opts：控制MapTask堆内存大小。（如果内存不够，报：java.lang.OutOfMemoryError）
（6）mapreduce.reduce.java.opts：控制ReduceTask堆内存大小。（如果内存不够，报：java.lang.OutOfMemoryError）
（7）可以增加MapTask的CPU核数，增加ReduceTask的CPU核数
（8）增加每个Container的CPU核数和内存大小
（9）在hdfs-site.xml文件中配置多目录（多磁盘）
（10）NameNode有一个工作线程池，用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。dfs.namenode.handler.count=20 * log2 (Cluster Size)，比如集群规模为10台时，此参数设置为60。

网友评论

本文标题：hadoop 调优措施调优参数

本文链接：https://www.haomeiwen.com/subject/yjyqrktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

hadoop 调优措施调优参数

MapReduce 跑的慢的原因

MapReduce优化方法

1.数据输入

2.Map阶段

3.Reduce阶段

4.I/O传输

5.数据倾斜问题

常用的调优参数

1．资源相关参数

2．容错相关参数(MapReduce性能优化)

项目经验之Hadoop参数调优

项目优化参考:

相关文章

hadoop 调优措施调优参数

Hadoop参数调优

Mongodb简单优化

hadoop性能优化

Nginx负载调优总结

Spark(十八)JVM调优之原理概述以及降低cache操作的内

hadoop调优

大数据面试题整理 -- hadoop 部分(2)

JVM调优

18家大厂Java面试题整理了350道（分布式+微服务+高并发）

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

hadoop 调优措施 调优参数

MapReduce 跑的慢的原因

MapReduce优化方法

1.数据输入

2.Map阶段

3.Reduce阶段

4.I/O传输

5.数据倾斜问题

常用的调优参数

1．资源相关参数

2．容错相关参数(MapReduce性能优化)

项目经验之Hadoop参数调优

项目优化参考:

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

hadoop 调优措施调优参数