美文网首页
Spark数据倾斜解决方案三:提升Shuffle Reduce的

Spark数据倾斜解决方案三:提升Shuffle Reduce的

作者: hipeer | 来源:发表于2018-11-02 19:31 被阅读0次

    数据倾斜发生时,某一个或者几个Reduce Task处理的Partition中的数据量相比于其他Reduce Task要多很多,那么,如果能够增加Reduce Task的数量,也可以缓解或者基本上解决数据倾斜问题。




    将Reduce Task数量增加,就能够减少每个Task处理的数据量,这样的话,数据倾斜问题就不会像之前那么严重了,甚至能够基本解决数据倾斜。
    当使用reduceByKey,groupByKey等能够产生Shuffle类算子的时候,可以传进去一个参数,这个参数就代表要创建的Reduce Task的数量。
    这种解决方案只起到了对数据倾斜问题的缓解作用,不能真正解决数据倾斜,但至少可以避免OOM。如果在使用这种方案时,Task最终的执行时间和原先相差不大,那么,就不能使用这种方案了。

    相关文章

      网友评论

          本文标题:Spark数据倾斜解决方案三:提升Shuffle Reduce的

          本文链接:https://www.haomeiwen.com/subject/gefitqtx.html