Hadoop Shuffle的流程

Hadoop Shuffle的流程

作者: 清明小雨 | 来源:发表于2015-10-24 21:17 被阅读0次

Hadoop Shuffle的流程
Spark和Hadoop的shuffule
Spark Shuffle
spark shuffle 过程
[第十四章]Spark Shuffle的原理剖析_1
Hadoop5-Mapreduce shuffle及优化
Hadoop运行原理之shuffle
Hadoop MapReduce优化和资源调度器
Hadoop Shuffle
常见面试题

Shuffle描述的是从Map执行完毕到Reduce开始运行之前数据的传递过程。
主要分为两个阶段：

1. Map result-->磁盘

map task会将结果放到内存的缓冲区中，当缓冲区中占用的比例超过阈值时，tasktracker会启动一个线程将结果写入磁盘，combiner会在spill之前执行一轮。
当多个map task都将结果写入磁盘，会在磁盘中生成大量小文件，tasktracker会启动另一个线程将这些小文件合并为一个大文件，合并之前会再次进行combiner，同时会保存一个索引文件，记录应该发送到每个reducer的数据块在大文件中的偏移量。

2. 磁盘-->Reduce input

reducer 会通过heartbeat周期性的向jobtrakcer查询map的进度和datanode节点地址和当前reducer在大文件中的偏移量（查找索引文件）
如果有mapper 完成任务，会启动多个线程通过http协议向对应datanode请求数据，获取数据之后会进行归并排序，使得具有相同的key的kv对连在一起，每个key启动一个reduce task进行相应的处理。

相关文章

Hadoop Shuffle的流程
Shuffle描述的是从Map执行完毕到Reduce开始运行之前数据的传递过程。主要分为两个阶段： 1. Map ...
Spark和Hadoop的shuffule
spark的shuffle和Hadoop的shuffle（mapreduce)的区别和关系是什么？ Hadoop ...
Spark Shuffle
1 Hadoop Shuffle 过程在MapReduce框架，Shuffle是连接 Map 和 Reduce ...
spark shuffle 过程
对比 Hadoop MapReduce 和 Spark 的 Shuffle 过程如果熟悉 Hadoop MapR...
[第十四章]Spark Shuffle的原理剖析_1
本章节主要是剖析Shuffle原理，spark中的Shuffle是非常重要的，shuffle不管在Hadoop中还...
Hadoop5-Mapreduce shuffle及优化
Hadoop-Mapreduce shuffle及优化转载 MapReduce简介在Hadoop MapRed...
Hadoop运行原理之shuffle
hadoop的核心思想是MapReduce，但shuffle又是MapReduce的核心。shuffle的主要工作...
Hadoop MapReduce优化和资源调度器
1.Hadoop MapReduce Shuffle过程 2.Shuffle过程要点记录每个Map Task把输...
Hadoop Shuffle
When there are multiple reducers, the map tasks partition...
常见面试题
一、mr的shuffle流程说到mr的Shuffle，那么首先要明确shuffle属于哪个阶段。shuffle就...

网友评论

本文标题：Hadoop Shuffle的流程

本文链接：https://www.haomeiwen.com/subject/uoathttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Hadoop Shuffle的流程|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！