美文网首页
153、Spark内核原理进阶之reduceByKey算子内部实

153、Spark内核原理进阶之reduceByKey算子内部实

作者: ZFH__ZJ | 来源:发表于2019-01-24 09:46 被阅读0次

先看原理图


reduceByKey.png

reduceByKey,跟groupByKey有一些异同之处

  1. 不同之处:reduceByKey,多了一个rdd,MapPartitionsRDD,存在于stage0的,主要是代表了进行本地数据归约之后的rdd。所以,要网络传输的数据量,以及磁盘IO等,会减少,性能更高。
  2. 相同之处:后面进行shuffle read和聚合的过程基本和groupByKey类似。都是ShuffledRDD,去做shuffle read。然后聚合,聚合后的数据就是最终的rdd。wordCounts rdd。

相关文章

网友评论

      本文标题:153、Spark内核原理进阶之reduceByKey算子内部实

      本文链接:https://www.haomeiwen.com/subject/muxcjqtx.html