Hadoop性能调优

Hadoop性能调优

作者: AlstonWilliams | 来源:发表于2018-02-24 22:11 被阅读161次

Hadoop性能调优
hadoop hdfs 性能调优
hadoop性能优化
Spark性能调优
Spark性能优化：数据倾斜调优（转）
Spark性能优化：开发调优篇（转）
Spark性能优化：资源调优篇（转）
成为一名Java高级架构师到底要学习哪些技术呢？
成为一名Java高级架构师你应该要学习的技术
成为一名Java高级架构师你应该要学习的技术

在这篇文章中，我们将会分享一些对Hadoop进行性能调优的方法，技巧。

这篇文章由我在阅读《Optimizing Hadoop for MapReduce》时，做的笔记，整理而成。

强烈建议读者去读一下上面重点标注的那本书。这本书，对如何对Hadoop进行性能调优，做了非常详细的介绍。

进行性能调优的方式

我们可以从下面的几个方面来对Hadoop进行优化：

优化HDFS
调整参数使CPU利用地更加充分
调整参数使内存利用地更加充分
调整参数使磁盘利用地更加充分
调整参数使网络利用地更加充分
对JVM进行调优
对操作系统进行调优

各个方面的具体参数

和CPU相关的参数

mapred.tasktracker.map.tasks.maximum: TaskTracker上面，能够同时运行的map tasks的数量
mapred.tasktracker.reduce.tasks.maximum: TaskTracker上面，能够同时运行的reduce tasks的数量

和磁盘相关的参数

mapred.compress.map.output: 是否对mapper的输出进行压缩
mapred.output.compress: 是否对job的输出进行压缩
mapred.map.output.compression.codec: 启用哪个compression codec来对map的输出进行压缩
mapred.local.dir: 存储mapper的中间结果的目录。如果指定了多个目录，那么就会均匀放置在不同的目录中。
dfs.data.dir: DataNode用于存储数据的目录

和内存相关的参数

mapred.child.java.opts: 为每个JVM task分配多大的内存
mapred.child.ulimit: 指定为每个MapReduce job分配的最大虚拟内存
io.sort.mb: 指定mapper的输出可以占用的内存
io.sort.factor: 指定能够同时进行排序的文件的个数
mapred.job.reduce.input.buffer.percent: Reducer端，用于保存mapper的输出结果的内存的大小

和网络相关的参数

mapred.reduce.parallel.copies: 在Shuffle阶段，并行从mapper读取数据的线程的数量
topology.script.file.name: 指定用于将DNS解析成主机的脚本的名称

hdfs-site.xml中和性能调优有关的参数

dfs.access.time.precision: 文件访问时间戳的精确度。如果设置成0，则表示不启用文件访问时间戳。在负载很大的时候，能够提高性能。
dfs.balance.bandwidthPerSec: 每个DataNode在rebalance block时，能够使用的最大带宽
dfs.block.size: DataNode上block的大小
dfs.data.dir: DataNode上用于存储数据的目录
dfs.datanode.du.reserved: DataNode上保留的空间的大小
dfs.datanode.handler.count: DataNode上处理block requests的handler的数量
dfs.max.objects: 最多能够存储的object(包括文件，目录和block)的数量
dfs.name.dir: NameNode上用于存储数据元数据的目录
dfs.namenode.handler.count: NameNode上用于处理数据元数据的线程的数量
dfs.name.edits.dir: NameNode上存储edit file的目录
dfs.replication: 集群中，每个block的副本的数量
dfs.replication.considerLoad: 当block在放置的时候，是否考虑data node的负载

core-site.xml中和性能调优有关的参数

fs.default.name: 默认的文件系统
hadoop.tmp.dir: 用于存储临时文件的目录
fs.checkpoint.dir: Secondary NameNode用于存储checkpoints的目录
io.file.buffer.size: 当读取或者写入文件时，可用的缓冲区的大小

和压缩相关的参数

io.compression.codec: Hadoop用于确定是否支持特定compression codec
mapreduce.map.output.compression: 是否对mapper的输出进行压缩
mapreduce.map.output.compress.codec: 对mapper的输出进行压缩时，采用哪个compression codec
mapreduce.output.fileoutputformat.compress: 是否对job的输出进行压缩
mapreduce.output.fileoutputformat.compress.codec: 采用哪个compression codec对job的输出进行压缩
mapreduce.output.fileoutputformat.compress.type: 对于SequenceFile，采用哪种压缩方式，可选值为NONE或者BLOCK
'

启用JVM重用

mapred.job.reuse.jvm.num.tasks: 一个JVM能够运行的Task的最大值。设置成-1的话，则这个JVM可以运行无限个Tasks.

其他

这本书中，还详细介绍了如何确定Mapper或者Reducer的数量，如何确定一个HDFS集群中，需要多少个节点。

关于这部分内容，请自行查看这本书。

相关文章

Hadoop性能调优
在这篇文章中，我们将会分享一些对Hadoop进行性能调优的方法，技巧。这篇文章由我在阅读《Optimizing ...
hadoop hdfs 性能调优
说明其实hdfs 并不适合作为小文件的分布式存储系统 . 前人埋下的坑.... 背景一次线上环境的hdfs ...
hadoop性能优化
最近的hdfs集群出了一些故障，今天总结一下hadoop的几个具体的性能调优方法 1）HDFS参数调优hdfs-s...
Spark性能调优
《Spark性能优化：开发调优篇》《Spark性能优化：资源调优篇》《Spark性能优化：数据倾斜调优》《Spar...
Spark性能优化：数据倾斜调优（转）
《Spark性能优化：开发调优篇》《Spark性能优化：资源调优篇》《Spark性能优化：数据倾斜调优》《Spar...
Spark性能优化：开发调优篇（转）
《Spark性能优化：开发调优篇》《Spark性能优化：资源调优篇》《Spark性能优化：数据倾斜调优》《Spar...
Spark性能优化：资源调优篇（转）
《Spark性能优化：开发调优篇》《Spark性能优化：资源调优篇》《Spark性能优化：数据倾斜调优》《Spar...
成为一名Java高级架构师到底要学习哪些技术呢？
性能调优性能优化本质 JVM调优深入Tomcat的调优 mysql调优那些事怎么写优雅的java代码 Spr...
成为一名Java高级架构师你应该要学习的技术
性能调优性能优化本质 JVM调优深入Tomcat的调优 mysql调优那些事怎么写优雅的java代码 Spr...
成为一名Java高级架构师你应该要学习的技术
性能调优性能优化本质 JVM调优深入Tomcat的调优 mysql调优那些事怎么写优雅的java代码 Spr...

网友评论

我爱编程

本文标题：Hadoop性能调优

本文链接：https://www.haomeiwen.com/subject/rcbcxftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

我爱编程

关于我们|服务条款|联系我们|Hadoop性能调优|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！