hive调优的多样性
1、通过减少中间临时区,减少MR job的数目,提高性能。
比如 对union all的 SQL优化,画出MR算子图。
2、hive的版本对性能也有影响
例如 hive 3.0 对COUNT(DISTINCT *)有优化,可设置参数,避免数据倾斜。
3、数据存储格式对性能也有影响,textFile < sequence < parquet < orc
4、感受不同表设计对性能的影响,分区与分桶
数据倾斜(暂略)
hive调优的多样性
1、通过减少中间临时区,减少MR job的数目,提高性能。
比如 对union all的 SQL优化,画出MR算子图。
2、hive的版本对性能也有影响
例如 hive 3.0 对COUNT(DISTINCT *)有优化,可设置参数,避免数据倾斜。
3、数据存储格式对性能也有影响,textFile < sequence < parquet < orc
4、感受不同表设计对性能的影响,分区与分桶
数据倾斜(暂略)
本文标题:hive调优
本文链接:https://www.haomeiwen.com/subject/caztfltx.html
网友评论