我们都知道MapReduce计算模型一般包括两个重要的阶段:Map是映射,负责数据的过滤分 发;Reduce是规约,负责数据的计算归并。Reduce的数据来源于Map,Map的输出即是Reduce的输入,Reduce需要通过 Shuffle来获取数据。从Map输出到Reduce输入的整个过程可以广义地称为Shuffle。Shuffle横跨Map端和Reduce端,在Map端包括Spill过程,在Reduce端包括copy和sort过程。Spill过程包括输出、排序、溢写、合并等步骤。
我们都知道MapReduce计算模型一般包括两个重要的阶段:Map是映射,负责数据的过滤分 发;Reduce是规约,负责数据的计算归并。Reduce的数据来源于Map,Map的输出即是Reduce的输入,Reduce需要通过 Shuffle来获取数据。从Map输出到Reduce输入的整个过程可以广义地称为Shuffle。Shuffle横跨Map端和Reduce端,在Map端包括Spill过程,在Reduce端包括copy和sort过程。Spill过程包括输出、排序、溢写、合并等步骤。
本文标题:为什么MapReduce计算模型需要Shuffle过程
本文链接:https://www.haomeiwen.com/subject/oltibftx.html
网友评论