美文网首页
Hive分区的作用

Hive分区的作用

作者: 纯野生程序员 | 来源:发表于2020-04-13 15:21 被阅读0次

    如果没有分区的存在,那么每次查询Hive将会进行全表扫描。对于小数据量的表来说,全表扫描并不会慢到无法忍受,但是对于大数据量来讲,比如几年的数据,每次查询都要扫描几年的所有数据,除了浪费时间之外,还浪费集群资源。为了改进这一问题,分区的价值就体现出来了。对于几年的数据,在设计Hive表的时候,可以将时间设计为分区字段,至于时间维度细到怎样的颗粒度,以业务需求为准。就这样,分区的存在,极大的缩小了数据的查询范围,比如以天为单位的分区字段,在查询2020年3月份的相关数据时,只需限制分区字段的时间在2020-03-01~2020-03-31之间,Hive就会根据分区字段条件直接找到几年数据中归属2020年3月份的数据,然后在对2020年3月份的数据根据具体的逻辑进行处理即可,而不需要几年的数据全部都扫描一次。

    区别:
    1.静态分区是需要指定分区的(源数据中没有)
    2.动态分区是利用数据中的字段坐分区的,(源数据中有的),🈲 主分区动态分区,次分区静态分区,使得每个主分区下面都要创建静态分区
    不难看出,Hive分区,主要是以缩小数据查询范围,提高查询速度和性能的。

    Hive静态分区

    Hive的静态分区,实际上就是手动指定分区的值为静态值,这种对于小批量的分区插入比较友好

    insert overwrite table demo_static_partition 
    partition(year="2020", month="04", 
    day="2020-04-10", hour="22") 
    select user_id, user_name, 
    trade_year as year ,
    trade_month as month,
    trade_day as day,
    trade_hour as hour  
    from user_demo 
    where trade_year="2020" 
    and trade_month="04" 
    and trade_day="2020-04-10" 
    and trade_hour="22" 
    

    语句中partition(year=“2020”, month=“04”, day=“2020-04-10”, hour=“22”) 的年月日小时手动指定了具体的值,这样的分区就叫静态分区了,是不是很简单?

    Hive动态分区

    Hive的动态分区,其实就是把静态分区中的分区值设置为动态的值,就可以了,来看看动态分区相关的HQL

    insert overwrite table demo_dynamic_partition 
    partition(year=year, month=month, 
    day=day, hour=hour) 
    select user_id, user_name, 
    trade_year as year ,
    trade_month as month,
    trade_day as day,
    trade_hour as hour  
    from user_demo 
    

    语句中partition(year=year, month=month, day=day, hour=hour)会根据具体值的变化而变化,无需手动指定,这对于大批量的分区插入是一个很方便的用法,但需要根据业务需求衡量分区数量是否合理的问题。毕竟分区会占用IO资源,数量越多,IO资源消耗越大,查询时间和性能都是有所损耗的。

    在创建动态分区时,经常遇到自动插入分区失败的问题,通过日志分析,可以知道,一种是没有开启动态分区模式,一种是严格模式导致的动态分区插入失败,一种是默认分区数量不足导致的分区插入失败。我们来了解一下,与动态分区相关的一些参数,以便更好的使用。

    -- Hive默认配置值
    -- 开启或关闭动态分区
    hive.exec.dynamic.partition=false;
    -- 设置为nonstrict模式,让所有分区都动态配置,否则至少需要指定一个分区值
    hive.exec.dynamic.partition.mode=strict;
    -- 能被mapper或reducer创建的最大动态分区数,超出而报错
    hive.exec.max.dynamic.partitions.pernode=100;
    -- 一条带有动态分区SQL语句所能创建的最大动态分区总数,超过则报错
    hive.exec.max.dynamic.partitions=1000;
    -- 全局能被创建文件数目的最大值,通过Hadoop计数器跟踪,若超过则报错
    hive.exec.max.created.files=100000;

    -- 根据个人需要配置

    set hive.exec.dynamic.partition=true;  
    set hive.exec.dynamic.partition.mode=nonstrict;
    set hive.exec.max.dynamic.partitions.pernode=1000;
    set hive.exec.max.dynamic.partitions=10000;
    set hive.exec.max.created.files=1000000;
    

    Hive静态分区和动态分区结合使用

    当你想每天执行某个时间段的分区数据插入,可以考虑一下动静分区结合方式,来看看HQL如何写?

    partition(year="2020", month="04", 
    day=day, hour=hour) 
    select user_id, user_name, 
    trade_year as year ,
    trade_month as month,
    trade_day as day,
    trade_hour as hour  
    from user_demo 
    where trade_year="2020" 
    and trade_month="04" ```
    
    

    相关文章

      网友评论

          本文标题:Hive分区的作用

          本文链接:https://www.haomeiwen.com/subject/ifzgmhtx.html