美文网首页
hive 优化-1

hive 优化-1

作者: wpb | 来源:发表于2017-12-20 16:50 被阅读0次
  • join优化-数据倾斜

    • hive.optimize.skewjoin=true; 【TODO 细节】

      • 数据倾斜时启动两个job进行join 然后再做union
    • set hive.skewjoin.key=100000;

      • 启动skewjoin的key的阈值
  • map join

    • set hive.auto.convert.join = true;

    • hive.mapjoin.smalltable.filesize 默认25mb

      • 建议可以设置小点 避免过多的map join 导致对内存占用率太高(每个进程都需要维护一份备份)
    • select /*+ mapjoin(A) */ a.a,a.b form A a join B b on a.id=b.id

      • A为小表
    • Tips:

      • 存在小表
      • 需要做不等值join
  • bucket join

    • 表按照join的字段做cluster by ,且bucket 数存在倍数关系

      • create table A (id int, price string) cluster by(id) into 32 buckets
      • create table B (id int, amount string) cluster by(id) into 32 buckets
      • select id,price,amount from A a join B b on a.id=b.id
  • filter 下推(人肉,hive不会自动进行优化)

    • select id,price,amount from A a join B b on a.id=b.id where id>1000 #优化前
    • select id,price,amount from (select * from A where id > 1000 ) a join (select * from A where id > 1000 ) b on a.id=b.id #优化后
  • count(distinct id) 优化

    • select count(distinct id) from A #此处count只会启动一个reduce,但是该reduce需要完成distince id的计算

    • select count(1) from (select distince id from A) # 此处会启动两个mr job 第一个job 并行计算distice id ,第二个启动一个reduce计算count

      • set mapred.reduce.task=n # n>1
    • select count(1) from (select id from A group by id) # 此处会启动两个mr job 第一个job 并行计算group by id ,第二个启动一个reduce计算count

      • set mapred.reduce.task=n # n>1

相关文章

  • Hive 企业使用优化一

    Hive优化之一fetch task。 优化场景, 1、当在hive中执行select * from emp全部查...

  • 数仓--Hive-面试之Hive优化策略

    Hive的优化策略大致分为:配置优化(hive-site.xml和hive-cli执行前配置)、表优化、hive数...

  • hive 优化-1

    join优化-数据倾斜hive.optimize.skewjoin=true; 【TODO 细节】数据倾斜时启动两...

  • Hive优化

    Hive简单优化与定期ETL Hive优化 Hive的执行依赖于底层的MapReduce作业,因此对Hadoop作...

  • Hive优化

    Hive优化 今天的主要内容——Hive优化 Fetch抓取Hive 中对某些情况的查询可以不必使用 MapRed...

  • Hive 公司调优总结(一)

    1.开启Fetch抓取 Hive优化(十四)- Fetch抓取(Hive可以避免进行MapReduce) 2.使用...

  • Hive优化

    Hive数据倾斜优化总结 Hive数据倾斜优化分为配置优化和SQL优化 优先原则: 数据不怕多,避免倾斜。 减少J...

  • 2018-08-05--08-11

    08-05配置1、sql语句练习。根据月乔的文档&sql优化,根据文档练习2、hive语句1)hive,sql连接...

  • Hive优化实践1-数据倾斜及join无关的优化

    Hive SQL的各种优化方法基本 都和数据倾斜密切相关。 Hive的优化分为join相关的优化和join无关的优...

  • Hive查询HBase调用MapReduce性能优化

    折腾了很久,被领导天天督促&指点,算是有个最基本的性能优化。 1. 背景介绍: Hive使用hive-hbase-...

网友评论

      本文标题:hive 优化-1

      本文链接:https://www.haomeiwen.com/subject/puogwxtx.html