声明:所有文章只作为学习笔记用,转载非原创
分区表创建和删除
https://www.jianshu.com/p/69efe36d068b
#数据倾斜的问题
https://www.cnblogs.com/wang3680/p/11636550.html
将reduce join 转为map join-----一般用于直接sql查询的场景
什么是MapJoin?
MapJoin顾名思义,就是在Map阶段进行表之间的连接。
# 倾斜场景
若进行 word count 的文本有100G,其中 80G 全部是 “aaa” 剩下 20G 是其余单词,那就会形成 80G 的数据量交给一个 reduce 进行相加,其余 20G 根据 key 不同分散到不同 reduce 进行相加的情况。如此就造成了数据倾斜,临床反应就是 reduce 跑到 99%然后一直在原地等着 那80G 的reduce 跑完。
#原理
在进行shuffle的时候,必须将各个节点上相同的Key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或者join操作。如果某个key对应的数据量特别大的话,会发生数据倾斜。
#hive
hive中的hiveconf与hivevar区别以及其作用域
https://blog.csdn.net/dax1n/article/details/80822755
网友评论