Hive 分区表

作者: oasis_m | 来源:发表于2020-04-03 15:52 被阅读0次

hive基础语法
hive的严格模式和分区
坑合集
hive分区表
案例详解__HIVE中内部表、外部表、分区表和分桶表
Hive系列之分区表和桶
hive进阶学习
大数据知识点总结
HiveSQL分区-DML
Spark读取hive数据文件

声明：所有文章只作为学习笔记用，转载非原创

分区表创建和删除

https://www.jianshu.com/p/69efe36d068b

#数据倾斜的问题

https://www.cnblogs.com/wang3680/p/11636550.html
将reduce join 转为map join-----一般用于直接sql查询的场景
什么是MapJoin?
MapJoin顾名思义，就是在Map阶段进行表之间的连接。

# 倾斜场景
若进行 word count 的文本有100G，其中 80G 全部是 “aaa” 剩下 20G 是其余单词，那就会形成 80G 的数据量交给一个 reduce 进行相加，其余 20G 根据 key 不同分散到不同 reduce 进行相加的情况。如此就造成了数据倾斜，临床反应就是 reduce 跑到 99%然后一直在原地等着 那80G 的reduce 跑完。

#原理

在进行shuffle的时候，必须将各个节点上相同的Key拉取到某个节点上的一个task来进行处理，比如按照key进行聚合或者join操作。如果某个key对应的数据量特别大的话，会发生数据倾斜。

#hive 
hive中的hiveconf与hivevar区别以及其作用域
https://blog.csdn.net/dax1n/article/details/80822755

网友评论

本文标题：Hive 分区表

本文链接：https://www.haomeiwen.com/subject/jezhphtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Hive 分区表

分区表创建和删除

相关文章

hive基础语法

hive的严格模式和分区

坑合集

hive分区表

案例详解__HIVE中内部表、外部表、分区表和分桶表

Hive系列之分区表和桶

hive进阶学习

大数据知识点总结

HiveSQL分区-DML

Spark读取hive数据文件

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读