美文网首页
数据倾斜笔记整理

数据倾斜笔记整理

作者: 晨磊的微博 | 来源:发表于2020-03-25 15:40 被阅读0次

数据倾斜笔记整理

其实数据倾斜,最根本的原因就是某个分区被分配了过多的数据,那么解决数据倾斜的本质就是减少该分区的数据量。

我们可以从下面几个思路上考虑解决方法。
第一、就是让该分区的数据被分配到其他分区,对应的方法如下表:

序号 方法 适用范围 备注
1. 增加Reduce个数 适用于多个Key对应大量数据且被分配到同一分区的情况 增加Reduce可以让MR的分区函数把这些Key对应的数据重新分配其他分区
2. 自定义Partitioner 适用于多个Key对应大量数据且被分配到同一分区的情况 目的是把原来分到一个分区的Key分到多个分区
3. 给Key增加随机数 适用于一个Key对应大量数据的情况 该方法需要在Reduce端进行随机数的去除操作

第二、就是提前进行聚合减少分区的数据

序号 方法 适用范围 备注
1. Map端combinner 适用非排重的计算,如count,sum等 如果是distinct并不适合这种方法

第三、其他方式方法

序号 方法 适用范围 备注
1. 数据分离处理 即把倾斜的数据拿出来单独处理 如访问日志有很多用户ID未0,则可以选择剔除、或抽离单独进行计算

PS:暂时就能想到这些,有遗漏或错误之处,欢迎指出,大家相互学习

相关文章

  • 数据倾斜笔记整理

    数据倾斜笔记整理 其实数据倾斜,最根本的原因就是某个分区被分配了过多的数据,那么解决数据倾斜的本质就是减少该分区的...

  • 数据倾斜(五):Spark是如何解决数据倾斜的

    Spark数据倾斜表现 Spark数据倾斜原理 Spark数据倾斜例子 Spark数据倾斜解决方案 七、Spark...

  • Spark--数据倾斜解决方案

    数据倾斜分为两大类:聚合倾斜和join倾斜,针对不同的倾斜类型采用不同解决方案 数据倾斜解决方案上分为:缓解数据倾...

  • 2019-05-22

    今天整理数据库笔记。

  • 大数据----“数据倾斜”的问题

    一、Hadoop中的数据倾斜: 什么是数据倾斜?(见下图) 简单来说数据倾斜就是数据的key 的分化严重不均,造成...

  • 数据倾斜

    前言 在从事大数据的工作中最为麻烦的事情就是和前端进行日志格式的商定,以及一旦有人辞职之后对于日志格式交代的不清晰...

  • 数据倾斜

    https://blog.csdn.net/weixin_35353187/article/details/843...

  • 2019-05-17

    今天整理了数据库笔记。

  • 【Flink 精选】如何处理作业的数据倾斜?

    如何处理 Flink 作业中的数据倾斜问题? 1.数据倾斜的原理和影响 1.1 原理 数据倾斜就是数据的分布严重不...

  • 2019-05-18

    今天将数据库笔记整理完,边整理边温习。

网友评论

      本文标题:数据倾斜笔记整理

      本文链接:https://www.haomeiwen.com/subject/uvqxuhtx.html