- 数据倾斜万能的方法:
hive.groupby.skewindata=true
这个环境变量是用于控制负载均衡
案例:双11的数据特别多,别的时间的任务很少,处理双11的reduce跑不完,总挂掉重启。分几个reduce跑,时间可能长一点,但是可以跑的完。正常是一拆2,如果还不行,就是2拆4
数据倾斜之大大表关联 数据倾斜之空间换时间补充资料:
https://blog.csdn.net/zj360202/article/details/38420575
案例:双11的数据特别多,别的时间的任务很少,处理双11的reduce跑不完,总挂掉重启。分几个reduce跑,时间可能长一点,但是可以跑的完。正常是一拆2,如果还不行,就是2拆4
数据倾斜之大大表关联 数据倾斜之空间换时间补充资料:
https://blog.csdn.net/zj360202/article/details/38420575
本文标题:hive 优化
本文链接:https://www.haomeiwen.com/subject/cdopbqtx.html
网友评论