美文网首页
hive 优化

hive 优化

作者: 进击的小恶魔 | 来源:发表于2019-04-01 01:30 被阅读0次
    • 数据倾斜万能的方法:
      hive.groupby.skewindata=true
      这个环境变量是用于控制负载均衡
    数据倾斜的解决办法:设置负载均衡

    案例:双11的数据特别多,别的时间的任务很少,处理双11的reduce跑不完,总挂掉重启。分几个reduce跑,时间可能长一点,但是可以跑的完。正常是一拆2,如果还不行,就是2拆4

    数据倾斜之大大表关联 数据倾斜之空间换时间

    补充资料:
    https://blog.csdn.net/zj360202/article/details/38420575

    相关文章

      网友评论

          本文标题:hive 优化

          本文链接:https://www.haomeiwen.com/subject/cdopbqtx.html