Spark笔记004-reduceByKey和groupByke

作者: 叫我小明谢谢 | 来源:发表于2018-06-27 00:30 被阅读0次

Spark笔记004-reduceByKey和groupByke
SKIL/配置/Spark解释器
Spark 2.3.1测试笔记二：SortExec性能测试1
spark
让书写和手绘不止于纸
Spark standalone模式安装运行和提交jar任务
spark 学习笔记
Spark3源码在IDEA中的编译
Spark Core 学习笔记
spark核心编程

突然听同事提起，就随便写一下的。

reduceByKey==groupByKey().map()

做一个word count小例子，

val counts = pairs.groupByKey(count=>(count._1,count._2.sum))

groupByKey的过程 MapPartitionsRDD=>ShuffledRDD=>MapPartitionsRDD=>MapPartitionsRDD
也就是说，它是原封不动的，把ShuffleMapTask的输出，来去到ResultTask的内存中，所以导致所有数据都进行了网络传输
而如果是reduceByKey，看下shuffleMapTask的write的实现，判断了是否有mapSideCombine，如果有，就先本地聚合，再写磁盘，再传输。

 override def write(records: Iterator[Product2[K, V]]): Unit = {
    sorter = if (dep.mapSideCombine) {
      require(dep.aggregator.isDefined, "Map-side combine without Aggregator specified!")
      new ExternalSorter[K, V, C](
        context, dep.aggregator, Some(dep.partitioner), dep.keyOrdering, dep.serializer)
    } else {
   ......
  }

这到底是在干什么

谈之前要有个共识，分布式系统，网络传输是占时间比重高也非常影响效率的部分。
说些比较飘浮的内容，这其实是mapreduce比较经典的map端combine，也就是说因为是分布式系统啊，首先把数据分散到各个节点并行计算，算完了再把数据传到其他节点去做最终结果计算。那么在第一次计算之前，如果能先做一些对最终结果计算有帮助的计算，再去传输，就能节省一点网络传输时间。
说些更飘浮的内容啊，mr这种计算是为了算结果，也就是把数据的抽象程度变高了，那么，能越早的接近最终结果，越能节约时间。

适用场景

如果有hadoop基础就知道，map端combine和reduce端combine逻辑一致才能得到最终结果。
如果不是，那就是如果需要对单key的所有value放在一起才能计算的逻辑不合适做这种优化。

网友评论

本文标题：Spark笔记004-reduceByKey和groupByke

本文链接：https://www.haomeiwen.com/subject/qnyvyftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Spark笔记004-reduceByKey和groupByke

reduceByKey==groupByKey().map()

这到底是在干什么

适用场景

相关文章