美文网首页
MR-Spilling map output 时间过长

MR-Spilling map output 时间过长

作者: raincoffee | 来源:发表于2018-04-19 16:59 被阅读114次

Q1:

一个mr作业,输入文件有的几个G,有的几百k。设置split大小为40M。但是发现某些map运行时间特别长。定位原因。

首先排除较慢的map是因为数据分布不均匀引起的。每一个map的输入为40mb。

查看map的日志。

image

时间集中在Spilling map output。

查看具体的输入输出。

image

查看container发现map的输出很大,任务数据膨胀造成的。以至于spill map output 时间过长。

备注:
一篇基础知识介绍文章:https://my.oschina.net/u/2293326/blog/607540

相关文章

  • MR-Spilling map output 时间过长

    Q1: 一个mr作业,输入文件有的几个G,有的几百k。设置split大小为40M。但是发现某些map运行时间特别长...

  • MIT 6.824 Day2

    w1 MapReduce Lab 1 Part 1: Map/Reduce input and output Pa...

  • Hadoop MapReduce

    Hadoop MapReduce 整个MR的过程可以分解为下面几步 读取数据 Map reduce output ...

  • Go sync包常见方法使用

    1.线程安全的map 卖票 在一个逻辑处理器上并发运行协程 Output: 将第一个协程慢一拍执行 Output:...

  • spark dataset api 中 flapmap 和 ma

    简单来说 map()是通过function 把input collection 里的每一个元素都转换成output...

  • Go Map 为什么是非线程安全的?

    Go map 默认是并发不安全的,同时对 map 进行并发读写的时,程序会 panic,原因如下:Go 官方经过长...

  • 学习-2

    查看key的过期时间 Code Output 用RENAME命令修改key Code Output 用RENAME...

  • 03.ES6数组对象展开(spread)

    数组对象展开 output: output 浅拷贝 output 转换可迭代对象为数组 output output...

  • bash的四则运算

    加 output: 13 减 output: 9 乘 output: 22 除 output: 5 取余 outp...

  • output

    不会发泄,不会大吵大叫,不会大哭大笑,也不想和别人交流,文字,变成了我唯一的输出工具。就让我把所有的不满都写下来吧...

网友评论

      本文标题:MR-Spilling map output 时间过长

      本文链接:https://www.haomeiwen.com/subject/kpowkftx.html