hive 优化方案

作者: afansdie | 来源:发表于2020-06-02 22:35 被阅读0次

目前越来越多的公司开始基于Hive搭建数据仓库，所以本文主要针对Hive介绍几种优化方式。尽管Hive已经做了很多原生的优化工作，但是仍然有优化的空间，系统的调优后，有利于Hive的高效运行。

JOIN 优化

join算是比较常用的一个场景，在执行JOIN操作的时候，需要将达标放在右边以获得更好的性能，如果一个表小到能够全部加载在内存中，那么可以考虑执行MAP端的JOIN，以免导致出现数据倾斜。

GROUP BY 优化

并不是所有的聚合操作都需要在Reduce端完成，很多聚合操作都可以现在Map端进行部分聚合，最后在Reduce端的出最终结果，当设置hive.groupby.skewindata = true 时，Hive会产生两个作业，第一个作业将Key随机均匀分发，并在Reduce阶段做聚合操作，第二个作业再按照Key分发，保证同一个Key的数据进入同一个Reduce任务重。

利用UNION ALL 特性

可以利用UNION ALL 特性将多个MapReduce 作业合并

MULTI-GROUP 和MULTI-INSERT

Hive 的MULTI-GROUP 和MULTI-INSERT特有的语法可以在同一个查询语句中使用多个不相交的insert 语句，这样比分开使用多个insert语句效率高，因为只需要扫描一遍全表。

TOP N

如果使用order by limit N 的话，该HQL只会生成一个作业，所有的数据将会集中到一个Reduce中进行全排序，这样效率会非常低。如果使用sort by limit N 的方式，Hive会生成两个作业，在第一个作业中，按照sort by 的排序方式，HIve会生成多个Reduce 进行局部排序，并求Top N。

并行执行

如果作业之间存在相互独立是，可以考虑设置参数 hive.exec.parallel 为true，开启Hive的并行模式，HIve默认是不考虑并行性，依次执行作业的。

合并小文件

当文件数目过多时，会给HDFS带来压力，可以通过合并Map 和Reduce 的输出文件来减少文件数。

hive.merge.mapfiles =true 是否合并Map阶段的输出文件，默认为true

hive.merge.mapredfiles = true 是否合并Reduce阶段的输出文件，默认为false

hive.merge.size.per.task = 256000000 合并的文件的大小

Reduce 数量

Reduce的数量会直接影响计算效率，可以将Reduce的最大值设定为n*0.95，其中n为NodeManager的数量，通过设置hive.exec.reducers.max可以增大Reduce的数量。但是这样并不能直接增大Hive作业的Reduce的个数，Hive作业的Reduce个数直接由一下两个参数配置决定。

（1）hive.exec.reducers.bytes.per.reducer

（2）hive.exec.reducers.max

计算Reducer的个数的公式为：Reducer的个数=min（参数2，总输入数据量/参数1），所以在如果输入数据在5GB的情况下，Hive会开启5个Reducer，我们可以通过改变这两个参数，来达到控制Reducer个数的目的。

下节会重点介绍如何针对数据倾斜进行优化

网友评论

数据仓库

本文标题：hive 优化方案

本文链接：https://www.haomeiwen.com/subject/sxkmzhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

hive 优化方案

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

数据仓库