[概念]Shuffle过程是MapReduce的核心，也被称为奇

作者: 葡萄喃喃呓语 | 来源:发表于2016-10-19 10:38 被阅读123次

MapReduce:详解Shuffle过程 - 每天一小步 - ITeye技术网站
http://langyu.iteye.com/blog/992916
Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方。要想理解MapReduce， Shuffle是必须要了解的。我看过很多相关的资料，但每次看完都云里雾里的绕着，很难理清大致的逻辑，反而越搅越混。前段时间在做MapReduce job 性能调优的工作，需要深入代码研究MapReduce的运行机制，这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火，所以在这里我尽最大的可能试着把Shuffle说清楚，让每一位想了解它原理的朋友都能有所收获。如果你对这篇文章有任何疑问或建议请留言到后面，谢谢！

官方对Shuffle过程的描述.png

这张是官方对Shuffle过程的描述。但我可以肯定的是，单从这张图你基本不可能明白Shuffle的过程，因为它与事实相差挺多，细节也是错乱的。后面我会具体描述Shuffle的事实情况，所以这里你只要清楚Shuffle的大致范围就成－怎样把map task的输出结果有效地传送到reduce端。也可以这样理解， Shuffle描述着数据从map task输出到reduce task输入的这段过程。

与 Hadoop 对比，如何看待 Spark 技术？ - 大数据 - 知乎
https://www.zhihu.com/question/26568496
Sort和Shuffle是MapReduce上最核心的操作之一，比如上千个Mapper之后，按照Key将数据集分发到对应的Reducer上，要走一个复杂的过程，要平衡各种因素。

网友评论

大数据开发

本文标题：[概念]Shuffle过程是MapReduce的核心，也被称为奇

本文链接：https://www.haomeiwen.com/subject/jfcxuttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

[概念]Shuffle过程是MapReduce的核心，也被称为奇

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据开发