美文网首页
为什么MapReduce计算模型需要Shuffle过程

为什么MapReduce计算模型需要Shuffle过程

作者: 咪雅先森 | 来源:发表于2018-08-15 00:24 被阅读0次

    我们都知道MapReduce计算模型一般包括两个重要的阶段:Map是映射,负责数据的过滤分 发;Reduce是规约,负责数据的计算归并。Reduce的数据来源于Map,Map的输出即是Reduce的输入,Reduce需要通过 Shuffle来获取数据。从Map输出到Reduce输入的整个过程可以广义地称为Shuffle。Shuffle横跨Map端和Reduce端,在Map端包括Spill过程,在Reduce端包括copy和sort过程。Spill过程包括输出、排序、溢写、合并等步骤。

    相关文章

      网友评论

          本文标题:为什么MapReduce计算模型需要Shuffle过程

          本文链接:https://www.haomeiwen.com/subject/oltibftx.html