数据倾斜（三）：MR是如何解决数据倾斜的

作者: longLiveData | 来源:发表于2020-05-23 11:01 被阅读0次

五、MR解决数据倾斜具体方法

combiner函数

思想：提前在map进行combine，减少传输的数据量

在Mapper加上combiner相当于提前进行reduce，即把一个Mapper中的相同key进行了聚合，减少shuffle过程中传输的数据量，以及Reducer端的计算量。

如果导致数据倾斜的key 大量分布在不同的mapper的时候，这种方法就不是很有效了。

局部聚合加全局聚合。

第一次在map阶段对那些导致了数据倾斜的key 加上1到n的随机前缀，这样本来相同的key 也会被分到多个Reducer中进行局部聚合，数量就会大大降低。

第二次mapreduce，去掉key的随机前缀，进行全局聚合。

思想：二次mr，第一次将key随机散列到不同reducer进行处理达到负载均衡目的。第二次再根据去掉key的随机前缀，按原key进行reduce处理。

该方法进行两次mapreduce：

这个方法进行两次mapreduce，性能稍差。

增加Reducer

思想：增加Reducer，提升并行度

JobConf.setNumReduceTasks(int)

实现custom partitioner

思想：根据数据分布情况，自定义散列函数，将key均匀分配到不同Reducer

网友评论

本文标题：数据倾斜（三）：MR是如何解决数据倾斜的

本文链接：https://www.haomeiwen.com/subject/yalkahtx.html