Spark中reduceByKey()和groupByKey()

Spark中reduceByKey()和groupByKey()

作者: AlstonWilliams | 来源:发表于2017-12-15 15:18 被阅读30次

Spark中reduceByKey()和groupByKey()
Spark groupByKey和reduceByKey
spark RDD，reduceByKey vs groupBy
reduceByKey 和 groupByKey
transformation操作
rdd
153、Spark内核原理进阶之reduceByKey算子内部实
groupByKey、reduceByKey、aggregate
深入理解groupByKey、reduceByKey
Spark数据倾斜解决方案四：使用随机Key进行双重聚合

我们都知道，在Spark当中，分组操作时，提供了这么两个函数。那么，这两个方法有什么区别呢？我们应该使用哪一个呢？

我们用WordCount程序来举例。

val words = Array("one", "two", "two", "three", "three", "three")
val wordPairsRDD = sc.parallelize(words).map(word => (word, 1))

val wordCountsWithReduce = wordPairsRDD
  .reduceByKey(_ + _)
  .collect()

val wordCountsWithGroup = wordPairsRDD
  .groupByKey()
  .map(t => (t._1, t._2.sum))
  .collect()

这两种做法的结果都是正确的。

但是，在大的数据集上，reduceByKey()的效果比groupByKey()的效果更好一些。因为reduceByKey()会在shuffle之前对数据进行合并。

下面一张图就能表示reduceByKey()都做了什么。

而当我们调用reduceByKey()的时候，所有的键值对都会被shuffle到下一个stage，传输的数据比较多，自然效率低一些。

原文链接

Prefer reduceByKye() over groupByKey()

相关文章

Spark中reduceByKey()和groupByKey()
我们都知道，在Spark当中，分组操作时，提供了这么两个函数。那么，这两个方法有什么区别呢？我们应该使用哪一个呢？...
Spark groupByKey和reduceByKey
一、从shuffle方面看两者性能groupByKey和reduceByKey都是ByKey系列算子，都会产生sh...
spark RDD，reduceByKey vs groupBy
Spark 中有两个类似的api，分别是 reduceByKey 和 groupByKey 。这两个的功能类似...
reduceByKey 和 groupByKey
groupByKey 进入org.apache.spark.rdd.PairRDDFunctions.scala ...
transformation操作
map() filter() flatMap() groupByKey() reduceByKey() sortB...
rdd
df->rdd leftOuterJoin groupByKey reduceByKey去重
153、Spark内核原理进阶之reduceByKey算子内部实
先看原理图 reduceByKey，跟groupByKey有一些异同之处不同之处：reduceByKey，多了一...
groupByKey、reduceByKey、aggregate
三者都可以做分组操作。reduceByKey、aggregateByKey不但分组还做了聚合操作 groupByK...
深入理解groupByKey、reduceByKey
测试源码下面来看看groupByKey和reduceByKey的区别：虽然两个函数都能得出正确的结果，但re...
Spark数据倾斜解决方案四：使用随机Key进行双重聚合
在使用reduceByKey，groupByKey算子时，都是针对PairRDD进行操作，那么，我们就可以Pair...

网友评论

本文标题：Spark中reduceByKey()和groupByKey()

本文链接：https://www.haomeiwen.com/subject/yokdwxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Spark中reduceByKey()和groupByKey()|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！