一个reduce可以处理多个key,但是一个key只能给一个reduce处理*(比较死板)
mr分为四个阶段:
1.切片
2.切成片后开始计算map阶段
3。shuffle阶段。洗牌,相同的key给一个reduce处理
存入缓冲区,然后排序,按照分区进行排序。会按分区编号(partition)进行·排序
完成两次排序,第一次粗粒度排序(按分区来排),第二次达到每一个相同的key来执行reduce(分区内部来排序)
在map阶段进行压缩combiner,把多条压缩到一条,减少io交互














网友评论