美文网首页
spark的join操作

spark的join操作

作者: 糖哗啦 | 来源:发表于2019-01-05 08:14 被阅读21次
    当我们在操作表进行join时,如何尽可能的避免shuffle过程?
    (1)设置分数函数和分数数一样

    两个RDD进行join操作前,对其分别执行了paritionBy 算子操作,并执行力分区函数和分区数:分区函数使用了HashPartition,分区数分别为1和2。


    分区函数一样、分区数不一样

    上图中可以看到,两个RDD发生join 是个宽依赖,是发生shuffle了的;那如何避免shuffle呢?
    让join操作变成窄依赖便不会产生shuffle了,需要让两个RDD的分区函数和分区一样即刻实现窄依赖的效果。看下图就可以简单了解到。


    分区函数、分区数一样
    (2)使用map-side join 替换掉join

    这个场景有点局限了,其中一个表不能过大,因为需要进行广播,如果太大,那么广播到executor端,会占用的内存过大。

    相关文章

      网友评论

          本文标题:spark的join操作

          本文链接:https://www.haomeiwen.com/subject/bczlrqtx.html