数据输入:
合并小文件
使用CombineTextInputFormat来作为输入
Map阶段
(spill)次数:通过调整io.sort.mb及sort.spill.percent
(merge)次数:通过调整io.sort.factor参数,增大merge的文件数目
combine处理:业务允许部分合并
Reduce阶段
map、reduce共存:调整slowstart.completedmaps
设置buffer直接输送到reduce中:mapred.job.reduce.input.buffer.percent
压缩阶段
使用snappy压缩
JVM重用
mapreduce.job.jvm.numtasks
网友评论