- 153、Spark内核原理进阶之reduceByKey算子内部实
- 161、Spark内核原理进阶之repartition算子内部实
- 156、Spark内核原理进阶之intersection算子内部
- 157、Spark内核原理进阶之join算子内部实现原理
- 151、Spark内核原理进阶之union算子内部实现原理
- 154、Spark内核原理进阶之distinct算子内部实现原理
- 155、Spark内核原理进阶之cogroup算子内部实现原理
- 160、Spark内核原理进阶之coalesce算子内部实现原理
- 152、Spark内核原理进阶之groupByKey算子内部实现
- 159、Spark内核原理进阶之cartesian算子内部实现原
先看原理图
reduceByKey.png
reduceByKey,跟groupByKey有一些异同之处
- 不同之处:reduceByKey,多了一个rdd,MapPartitionsRDD,存在于stage0的,主要是代表了进行本地数据归约之后的rdd。所以,要网络传输的数据量,以及磁盘IO等,会减少,性能更高。
- 相同之处:后面进行shuffle read和聚合的过程基本和groupByKey类似。都是ShuffledRDD,去做shuffle read。然后聚合,聚合后的数据就是最终的rdd。wordCounts rdd。
网友评论