Hive分区表学习总结

作者: 董可伦 | 来源:发表于2018-12-04 23:24 被阅读12次

我的原创地址:https://dongkelun.com/2018/12/02/hivePartitionTable/

前言

用了这么久的Hive,而没有认真的学习和使用过Hive的分区,现在学习记录一下。

  • 分区表一般在数据量比较大,且有明确的分区字段时使用,这样用分区字段作为查询条件查询效率会比较高。
  • Hive分区分为静态分区和动态分区

1、建表语句

先用一个有分区字段的分区表进行学习,静态分区和动态分区的建表语句是一样的。

create table test_partition (
id string comment 'ID', 
name string comment '名字'
)
comment '测试分区'
partitioned by (year int comment '年')
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;

2、插入语句

静态分区和动态分区的插入数据的语句是不一样的,所以分开

2.1 静态分区

静态分区是在语句中指定分区字段为某个固定值,多次重复插入数据是为了看看数据如何在hdfs上存储的。

2.1.1 insert into

insert into table test_partition partition(year=2018) values ('001','张三');
insert into table test_partition partition(year=2018) values ('001','张三');
insert into table test_partition partition(year=2018) values ('002','李四');

2.1.2 load data

data.txt

002,李四
003,王五
load data local inpath '/root/dkl/data/data.txt' into table test_partition partition (year =2018);
load data local inpath '/root/dkl/data/data.txt' into table test_partition partition (year =2018);
load data local inpath '/root/dkl/data/data.txt' into table test_partition partition (year =2017);

2.1.3 查询及结果

image

2.1.4 hdfs存储形式

image

分区2018的路径为

/apps/hive/warehouse/dkl.db/test_partition/year=2018
  • /apps/hive/warehouse 为hive的仓库路径
  • dkl.db dkl为数据库名称
  • test_partition为表名
  • year为分区字段名

2.2 动态分区

2.2.1 insert into

insert into table test_partition partition(year) values ('001','张三',2016); 

动态分区默认不开启,执行上面的语句会报错:

insert into table test_partition partition(year) values ('001','张三',2016);
FAILED: SemanticException [Error 10096]: Dynamic partition strict mode requires at least one static partition column. To turn this off set hive.exec.dynamic.partition.mode=nonstrict

开启:

set hive.exec.dynamic.partition.mode=nonstrict;

然后再执行就可以了

注:上面的命令是临时生效,退出hive重新进hive需要重新执行上面的命令,才能动态分区

2.2.2 load data

不能使用load data进行动态分区插入
data.txt

002,李四,2015
003,王五,2014
load data local inpath '/root/dkl/data/data.txt' into table test_partition partition (year);
hive> load data local inpath '/root/dkl/data/data.txt' into table test_partition partition (year);
FAILED: NullPointerException null

可以使用另一种方法解决

首先创建没有分区的表

create table test (
id string comment 'ID', 
name string comment '名字',
year int comment '年'
)
comment '测试'
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;

先将数据load进test表

load data local inpath '/root/dkl/data/data.txt' into table test;

然后从表test,动态分区插入test_partition中

insert into table test_partition partition(year)  select * from test;

如果后面select具体字段的话,需要保证顺序一致,把分区字段放在最后。

insert into table test_partition partition(year)  select id,name,year from test;

3、查看分区信息

show  partitions test_partition;
hive> show  partitions test_partition;
OK
year=2017
year=2018
Time taken: 0.719 seconds, Fetched: 2 row(s)

4、添加分区字段

查了一下,不能添加新的分区字段

4.1 添加新分区

alter table test_partition add  partition (year=2012);

这样就会新建对应的hdfs路径下一个year=2012的文件夹

当然也可以指定localtion,这样就不会在默认的路径下建立文件夹了

alter table test_partition add  partition (year=2010) location '/tmp/dkl';

这样如果/tmp/dkl文件夹不存在的话就会新建文件夹,如果存在就会把该文件夹下的所有的文件加载到Hive表,有一点需要注意,如果删除该分区的话,对应的文件夹也会删掉,删除语法请参考后面的第6部分。

4.2 添加非分区字段

alter table test_partition add columns(age int);

这样新加的字段是在非分区字段的最后,在分区字段之前

不过这里有一个bug,就是往表里新插入数据后,新增的age字段查询全部显示为NULL(其实数据已经存在):

  • 新增加的分区是不存在这个bug的,比如之前没有year=2011这个分区,那么新增的话不会存在bug
  • 分区在添加age字段之前已存在(即使该分区下没有任何数据),bug存在
    解决方法:
    对已存在的分区执行下面的sql即可,以分区2018为例
alter table test_partition partition(year=2018) add columns(age int);

5、多个分区字段

以两个分区字段为例

5.1 建表

create table test_partition2 (
id string comment 'ID', 
name string comment '名字'
)
comment '测试两个分区'
partitioned by (year int comment '年',month int comment '月')
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;

5.2 HDFS存储格式

看一下多个分区的的表如何在HDFS上存储的,用静态分区的形式插入一条记录:

insert into table test_partition2 partition(year=2018,month=12) values ('001','张三');
/apps/hive/warehouse/dkl.db/test_partition2/year=2018/month=12
image

6、删除分区

只能删除某个分区,如删除分区2018,而不能删除整个分区year字段。

6.1 单分区表

alter table test_partition drop partition(year=2018);

6.2 多分区表

6.2.1 删除year=2018,month=12

alter table test_partition2 drop partition(year=2018,month=12);

6.2.2 删除year=2018

year=2018所有的月份都会删除

alter table test_partition2 drop partition(year=2018);

6.2.3 删除month=10

所有月份等于10的分区都会删除,无论year=2018,还是year=2017...

alter table test_partition2 drop partition(month=10);

参考

相关阅读

Hive内部表和外部表

相关文章

  • Hive分区表学习总结

    我的原创地址:https://dongkelun.com/2018/12/02/hivePartitionTabl...

  • Hive优化

    这里从四个方面对 Hive 常用的一些性能优化进行了总结。 一 : 表设计层面优化 利用分区表优化 分区表 是在某...

  • hive基础语法

    目录 Hive安装和启动 Hive表操作-分区表 Hive表操作-复杂类型操作 Hive 查询语句 Zepplin...

  • hive的严格模式和分区

    相比mysql,hive有严格模式存在,为了不错误扫描整个数据,hive的分区表会将数据分成几个分区。查询分区表中...

  • 坑合集

    Flume flume细节 Hive 数据倾斜Hive优化 Hive分区表新增字段为null的bug及解决方法 S...

  • hive分区表

    hive分区表 1 为什么出现分区表? 假设有海量的数据保存在hdfs的某一个hive表明对应的目录下,使用hiv...

  • 案例详解__HIVE中内部表、外部表、分区表和分桶表

    目录一、Hive建表语法二、内部表外部表三、分区表四、分桶表 Hive在建表时可指定内部表、外部表、分区表和分桶表...

  • Hive系列之分区表和桶

    为提升hive数据的查询和写入性能, hive提供了分区表机制。hive每个表格可以指定多个分区key, 这些分区...

  • hive进阶学习

    创建hive表常用语句: 修改hive表名称: 内部表 vs 外部表: 创建分区表以及补充操作: hive中查询介...

  • 大数据知识点总结

    Hive: 分区表有哪几类 Hive中追加导入数据的4种方式是什么? Hive中到处数据有几种方式?如何导出数据 ...

网友评论

    本文标题:Hive分区表学习总结

    本文链接:https://www.haomeiwen.com/subject/uaebcqtx.html