美文网首页
Hive 分区表

Hive 分区表

作者: oasis_m | 来源:发表于2020-04-03 15:52 被阅读0次

    声明:所有文章只作为学习笔记用,转载非原创

    分区表创建和删除

    https://www.jianshu.com/p/69efe36d068b

    #数据倾斜的问题
    
    https://www.cnblogs.com/wang3680/p/11636550.html
    将reduce join 转为map join-----一般用于直接sql查询的场景
    什么是MapJoin?
    MapJoin顾名思义,就是在Map阶段进行表之间的连接。
    
    # 倾斜场景
    若进行 word count 的文本有100G,其中 80G 全部是 “aaa” 剩下 20G 是其余单词,那就会形成 80G 的数据量交给一个 reduce 进行相加,其余 20G 根据 key 不同分散到不同 reduce 进行相加的情况。如此就造成了数据倾斜,临床反应就是 reduce 跑到 99%然后一直在原地等着 那80G 的reduce 跑完。
    
    #原理
    
    在进行shuffle的时候,必须将各个节点上相同的Key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或者join操作。如果某个key对应的数据量特别大的话,会发生数据倾斜。
    
    #hive 
    hive中的hiveconf与hivevar区别以及其作用域
    https://blog.csdn.net/dax1n/article/details/80822755 
    
    

    相关文章

      网友评论

          本文标题:Hive 分区表

          本文链接:https://www.haomeiwen.com/subject/jezhphtx.html