1.分区
分区是以字段的形式在表结构中存在,但该字段不存放实际的数据内容,仅仅是分区的表示。
2.分桶
桶是更为细粒度的数据范围划分,是针对某一列进行桶的组织。hive对列值哈希,再除以桶的个数求余的方式决定该条记录存放在哪个桶中。
获得更高的查询处理效率;
使取样更高效。
参考:Hive分区、分桶和索引
https://blog.csdn.net/sjyttkl/article/details/80033602
1.分区
分区是以字段的形式在表结构中存在,但该字段不存放实际的数据内容,仅仅是分区的表示。
2.分桶
桶是更为细粒度的数据范围划分,是针对某一列进行桶的组织。hive对列值哈希,再除以桶的个数求余的方式决定该条记录存放在哪个桶中。
获得更高的查询处理效率;
使取样更高效。
参考:Hive分区、分桶和索引
https://blog.csdn.net/sjyttkl/article/details/80033602
本文标题:hive分区分桶索引
本文链接:https://www.haomeiwen.com/subject/cangdctx.html
网友评论