数据倾斜导致子任务积压

作者: 坨坨的大数据 | 来源:发表于2022-04-20 12:36 被阅读0次

数据倾斜导致子任务积压
Hive优化(五)-避免数据倾斜
hive中关于常见数据倾斜的处理
（2）数据倾斜
数据倾斜（一）：数据倾斜及具体场景
Spark异常处理——数据倾斜
hive3.x on spark3.0生产调优实践
数据倾斜（五）：Spark是如何解决数据倾斜的
mysql 数据倾斜导致扫描数过多
Spark数据倾斜解决方案二：过滤导致数据倾斜的Key

业务背景：

一个流程中，有两个重要子任务：一是数据迁移，将kafka实时数据落Es，二是将kafka数据做窗口聚合落hbase，两个子任务接的是同一个Topic GroupId。上游Topic的 tps高峰达到5-6w。

问题描述：

给 24个 TaskManager(CPU) 都会出现来不及消费的情况。

问题原因：

做窗口聚合的任务的分组字段，分组粒度太小，hash不能打散，数据倾斜严重，导致少数TaskManager上压力过大，从而影响落Es的效率，导致背压。

解决方式：

将两个任务独立开来，作为不同的流程。

结果：

修改之前24个TaskManager(CPU) 来不及消费，改完之后20个CPU可完成任务。Kafka实时数据落Es的16个TaskManager，将kafka数据做窗口聚合落hbase的4个TaskManager。

另：

同样的数据、同样的Tps作为数据输入，Hbase的输出能力远超过Es，考虑实时任务落数据进Es要慎重。

Flink任务落Es时要考虑设置微批落数据，设置bulk.flush.max.actions和bulk.flush.interval.ms至合适值，否则影响吞吐量。

数据倾斜导致子任务积压
业务背景：一个流程中，有两个重要子任务：一是数据迁移，将kafka实时数据落Es，二是将kafka数据做窗口聚合...
Hive优化(五)-避免数据倾斜
1.数据倾斜什么是数据倾斜在单个节点任务所处理的数据量远大于同类型任务所处理的数据量,导致该节点成为整个作业的...
hive中关于常见数据倾斜的处理
什么是数据倾斜？数据倾斜的常见操作状态任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少...
（2）数据倾斜
1、数据倾斜原因数据倾斜主要是由于在reduce阶段，某些值过多导值相应的reduce处理缓慢导致的。数据的分散...
数据倾斜（一）：数据倾斜及具体场景
一、什么是数据倾斜简单的讲，数据倾斜就是我们在计算数据的时候，数据的分散度不够，导致大量的数据集中到了集群中的一...
Spark异常处理——数据倾斜
大多数任务都完成了，还有那么一两个任务怎么都跑不完或者跑的很慢，分为数据倾斜和task倾斜。错误提示 1. 数据...
hive3.x on spark3.0生产调优实践
1 数据倾斜绝大部分任务都很快完成，只有一个或者少数几个任务执行的很慢甚至最终执行失败，这样的现象为数据倾斜现象...
数据倾斜（五）：Spark是如何解决数据倾斜的
Spark数据倾斜表现 Spark数据倾斜原理 Spark数据倾斜例子 Spark数据倾斜解决方案七、Spark...
mysql 数据倾斜导致扫描数过多
一、事情过程今天突然有一个平时很正常的 sql 跑了2000多次，并且每次都跑2秒，差点把数据库搞挂了。二、分...
Spark数据倾斜解决方案二：过滤导致数据倾斜的Key
发生数据倾斜时，如果有少数几个Key对应的数据量特别大，而且这些Key对整个Spark作业的执行和结果不太重要，那...