数据倾斜笔记整理

数据倾斜笔记整理

作者: 晨磊的微博 | 来源:发表于2020-03-25 15:40 被阅读0次

数据倾斜笔记整理
数据倾斜（五）：Spark是如何解决数据倾斜的
Spark--数据倾斜解决方案
2019-05-22
大数据----“数据倾斜”的问题
数据倾斜
数据倾斜
2019-05-17
【Flink 精选】如何处理作业的数据倾斜？
2019-05-18

数据倾斜笔记整理

其实数据倾斜，最根本的原因就是某个分区被分配了过多的数据，那么解决数据倾斜的本质就是减少该分区的数据量。

我们可以从下面几个思路上考虑解决方法。
第一、就是让该分区的数据被分配到其他分区，对应的方法如下表：

序号	方法	适用范围	备注
1.	增加Reduce个数	适用于多个Key对应大量数据且被分配到同一分区的情况	增加Reduce可以让MR的分区函数把这些Key对应的数据重新分配其他分区
2.	自定义Partitioner	适用于多个Key对应大量数据且被分配到同一分区的情况	目的是把原来分到一个分区的Key分到多个分区
3.	给Key增加随机数	适用于一个Key对应大量数据的情况	该方法需要在Reduce端进行随机数的去除操作

第二、就是提前进行聚合减少分区的数据

序号	方法	适用范围	备注
1.	Map端combinner	适用非排重的计算，如count,sum等	如果是distinct并不适合这种方法

第三、其他方式方法

序号	方法	适用范围	备注
1.	数据分离处理	即把倾斜的数据拿出来单独处理	如访问日志有很多用户ID未0，则可以选择剔除、或抽离单独进行计算

PS：暂时就能想到这些，有遗漏或错误之处，欢迎指出，大家相互学习

相关文章

数据倾斜笔记整理
数据倾斜笔记整理其实数据倾斜，最根本的原因就是某个分区被分配了过多的数据，那么解决数据倾斜的本质就是减少该分区的...
数据倾斜（五）：Spark是如何解决数据倾斜的
Spark数据倾斜表现 Spark数据倾斜原理 Spark数据倾斜例子 Spark数据倾斜解决方案七、Spark...
Spark--数据倾斜解决方案
数据倾斜分为两大类：聚合倾斜和join倾斜，针对不同的倾斜类型采用不同解决方案数据倾斜解决方案上分为：缓解数据倾...
2019-05-22
今天整理数据库笔记。
大数据----“数据倾斜”的问题
一、Hadoop中的数据倾斜：什么是数据倾斜？（见下图）简单来说数据倾斜就是数据的key 的分化严重不均，造成...
数据倾斜
前言在从事大数据的工作中最为麻烦的事情就是和前端进行日志格式的商定，以及一旦有人辞职之后对于日志格式交代的不清晰...
数据倾斜
https://blog.csdn.net/weixin_35353187/article/details/843...
2019-05-17
今天整理了数据库笔记。
【Flink 精选】如何处理作业的数据倾斜？
如何处理 Flink 作业中的数据倾斜问题？ 1.数据倾斜的原理和影响 1.1 原理数据倾斜就是数据的分布严重不...
2019-05-18
今天将数据库笔记整理完，边整理边温习。

网友评论

本文标题：数据倾斜笔记整理

本文链接：https://www.haomeiwen.com/subject/uvqxuhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|数据倾斜笔记整理|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！