美文网首页
HIVE 动态分区的需要注意的问题

HIVE 动态分区的需要注意的问题

作者: 叫我不矜持 | 来源:发表于2019-05-11 11:29 被阅读0次

    问题的引入

    在hive sql中使用动态分区非常方便,也比较常用,但是在使用的过程中会带来一些问题。

    比如:在一段sql语句中我需要指定两个字段当做动态分区,一个字段的基数为7,另一个为4,这就是28个分区,当sql语句的最后一个job是一个仅有map阶段的任务,此时如果数据量有4000个map,那么这种情况下map任务在往hive分区中写的时候,每个map几乎都要产生28个文件,这样就会产生4000*28个文件,带来大量的小文件。比如如下一个简单的sql:

    insert overwrite table test1 partition(week,type)
    select * from test_table;
    

    这个sql只有map任务,在数据量的情况下可能会产生大量的map,导致产生大量的小文件,实际上不仅仅是最后一个job只有map的任务有影响,reduce同样如此,但是一般情况下reduce的数目不会太大,并且reduce数目比较好控制。

    解决方案

    最后一个阶段只有map,若是有reduce的话,可以把相同分区的数据发送到一个reduce处理

    insert overwrite table test1 partition(week,type)
    select
        *
    from test_table
    DISTRIBUTE BY week,type;
    

    这样的话产生的文件数就等于分区数目了(在不限制reduce的情况下),文件数目大大减小,但是文件数目也太少了吧,并且由于数据分布不均匀,分区下的文件大小差异特别大。并且由于不同reduce处理的数据量差异,造成部分reduce执行速度过慢,影响了整体的速度。

    若是想把数据均匀的分配的reduce上,DISTRIBUTE BY的字段就不能使用分区下的字段,可以使用DISTRIBUTE BY rand(),这样rand取哈希然后对reduce数目取余,保证了每条数据分配到所有reduce的可能性是相等的,这样reduce处理的数据量就是均匀的,在数据量比较大的情况下每个reduce产生的文件数为动态分区的个数,产生的文件为reduceTask数*分区个数。

    set hive.exec.reducers.max=500;
    insert overwrite table test1 partition(week,type)
    select
        *
    from test_table
    DISTRIBUTE BY rand();
    

    这样产生的文件数就大大减少了。

    相关文章

      网友评论

          本文标题:HIVE 动态分区的需要注意的问题

          本文链接:https://www.haomeiwen.com/subject/byfxaqtx.html