美文网首页
Spark中reduceByKey()和groupByKey()

Spark中reduceByKey()和groupByKey()

作者: AlstonWilliams | 来源:发表于2017-12-15 15:18 被阅读30次

    我们都知道,在Spark当中,分组操作时,提供了这么两个函数。那么,这两个方法有什么区别呢?我们应该使用哪一个呢?

    我们用WordCount程序来举例。

    val words = Array("one", "two", "two", "three", "three", "three")
    val wordPairsRDD = sc.parallelize(words).map(word => (word, 1))
    
    val wordCountsWithReduce = wordPairsRDD
      .reduceByKey(_ + _)
      .collect()
    
    val wordCountsWithGroup = wordPairsRDD
      .groupByKey()
      .map(t => (t._1, t._2.sum))
      .collect()
    

    这两种做法的结果都是正确的。

    但是,在大的数据集上,reduceByKey()的效果比groupByKey()的效果更好一些。因为reduceByKey()会在shuffle之前对数据进行合并。

    下面一张图就能表示reduceByKey()都做了什么。

    而当我们调用reduceByKey()的时候,所有的键值对都会被shuffle到下一个stage,传输的数据比较多,自然效率低一些。

    原文链接

    Prefer reduceByKye() over groupByKey()

    相关文章

      网友评论

          本文标题:Spark中reduceByKey()和groupByKey()

          本文链接:https://www.haomeiwen.com/subject/yokdwxtx.html