spark的join操作

作者: 糖哗啦 | 来源:发表于2019-01-05 08:14 被阅读21次

两个RDD进行join操作前，对其分别执行了paritionBy 算子操作，并执行力分区函数和分区数：分区函数使用了HashPartition，分区数分别为1和2。

分区函数一样、分区数不一样

上图中可以看到，两个RDD发生join 是个宽依赖，是发生shuffle了的；那如何避免shuffle呢？
让join操作变成窄依赖便不会产生shuffle了，需要让两个RDD的分区函数和分区一样即刻实现窄依赖的效果。看下图就可以简单了解到。

分区函数、分区数一样

这个场景有点局限了，其中一个表不能过大，因为需要进行广播，如果太大，那么广播到executor端，会占用的内存过大。

网友评论

本文标题：spark的join操作

本文链接：https://www.haomeiwen.com/subject/bczlrqtx.html

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！