Hive分区参考

作者: liuzx32 | 来源:发表于2019-03-26 20:18 被阅读0次

Hive分区参考
动态分区说明
Hive 分区/分桶
Hive系列之分区表和桶
Hive01
大数据之Hive03-分区partition详解（静态分区，动态
Hive 1.2.1 分区和分捅
Hive表
大数据开发之Hive篇19-Hive分区表详解
Hive优化

一、为啥分区

hive 为了避免全表查询，从而引进分区，将数据按目录进行划分，减少不必要的查询，从而提高效率

二、hive的分区和mysql分区的区别

mysql的分区字段用的是表内字段，hive的分区字段采用表外字段，也就是使用伪字段，分区字段在创建表的时候指定

分区的关键字：partitioned by(字段)

三、Hive中的动态分区

hive.exec.dynamic.partition=true; 是否允许动态分区
hive.exec.dynamic.partition.mode=strict/nostrict; 动态区模式为严格模式
hive.exec.max.dynamic.partitions=1000; 允许最大的动态分区
hive.exec.max.dynamic.partitions.pernode=100; 单个节点允许最大分区

strict:严格模式，最少需要一个静态分区列(指定固定值)
nostrict:费严格模式，允许所有的分区字段都为动态。

hive的静态分区：分区数据已知
hive的动态分区：分区数据未知(不知道有多少个分区)
hive的混合分区：有动态有静态