美文网首页
Hive数据倾斜

Hive数据倾斜

作者: gotodeeper | 来源:发表于2018-08-14 16:27 被阅读0次

数据倾斜

map reduce任务执行时,reduce节点任务大部分执行完毕,但是有一或几个reduce任务运行很慢,导致任务进度一直卡在99%,这是因为某一个key的条数比其他key多得多,所在reduce节点的数据量就比其他节点大很多,从而导致某几个节点的reduce任务迟迟不能运行完

原因

1.空值导致数据倾斜:空值不参与关联,赋予空值新的key值(减少IO)

2.不同数据类型关联产生数据倾斜

解决方法

参数配置

1.hive.groupby.skewindata=true

此方法会生成两个MR任务,第一个map的输出结果集合会随机分不到reduce中,每个reduce做部分聚合操作,并输出结果,这样处理的结果是相同的Group By Key有可能被分到不同夫人reduce中,达到负载均衡的目的,第二个MR任务再根据预处理的输出结果按照GroupByKey分布到reduce中(这个过程可以保证相同的GroupByKey被分到同一个Reduce中),最后完成最终的聚合操作。

2.hive.map.aggr=true  Map端部分聚合,相当于Combiner

SQl语句优化

1.大小表关联:使用Map Join让小的维度表先进内存。在map端完成reduce

2.大表和大表关联:把空值NULL的key变成一个字符串加上随机数,把倾斜的数据分到不同的reduce上,由于null值关联不上,处理后并不影响最终结果

3.大表Join的数据倾斜

    3.1map输出key数量极少,导致reduce端退化为单机作业

            对Join的一个表去重,以此结果过滤大表的无用信息,使用mapjoin

    3.2map输出key分布不均,导致少量key对应大量value,致使reduce端单机瓶颈

            切分join中的一个表,以便将切片(使用hive抽样函数)全部载入内存,然后多次采用 map             join得到结果

hive map和reduce优化:map和reduce任务启动和初始化会造成时间和资源浪费

减少map数:有很多小文件(远远小于128M)

合并小文件 

set mapred.max.split.size=100000000;<br />set mapred.min.split.size.per.node=100000000;

set mapred.min.split.size.per.rack=100000000;

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

相关文章

  • Hive优化

    Hive数据倾斜优化总结 Hive数据倾斜优化分为配置优化和SQL优化 优先原则: 数据不怕多,避免倾斜。 减少J...

  • hive 优化-1

    join优化-数据倾斜hive.optimize.skewjoin=true; 【TODO 细节】数据倾斜时启动两...

  • Hive数据倾斜

    数据倾斜 map reduce任务执行时,reduce节点任务大部分执行完毕,但是有一或几个reduce任务运行很...

  • Hive 数据倾斜

    http://www.cnblogs.com/qingyunzong/p/8847597.htmlhttp://w...

  • HIVE:数据倾斜

    一、Map倾斜 根本原因:读入的文件块的数据分布不均匀。 1、上游表文件的大小不均匀,并且小文件特别多,导致当前表...

  • Hive 数据倾斜

    现象:任务卡在map 100% reduce 99%,分布式计算时, 优化目标:使map的结果更均匀的分布到red...

  • Hive数据倾斜

    原文链接:https://my.oschina.net/134596/blog/1800029 在做Shuffle...

  • hive 数据倾斜

    1、Hive 不同数据类型关联产生数据倾斜 情形:比如用户表中 user_id 字段为 int,log 表中 us...

  • hive的数据倾斜操作

    hive底层对应的是mr程序。需要注意数据倾斜问题: Hive进阶 数据倾斜 在我们数据清洗过程中,经常会出现一种...

  • Spark 数据倾斜调优

    1.使用Hive ETL预处理数据 方案适用场景:如果导致数据倾斜的是Hive表。如果该Hive表中的数据本身很不...

网友评论

      本文标题:Hive数据倾斜

      本文链接:https://www.haomeiwen.com/subject/omzmbftx.html