MapJoin

作者: 安申 | 来源:发表于2021-07-16 10:50 被阅读0次

    背景:最近组内开展每周五技术分享讨论,于是抽空了解了一些平时可能会用到的知识点。
    选题:MapJoin

    1.MapJoin介绍

    MapJoin是Hive的一种优化操作,其适用于小表JOIN大表的场景,由于表的JOIN操作是在Map端且在内存进行的,所以其并不需要启动Reduce任务也就不需要经过shuffle阶段,从而能在一定程度上节省资源提高JOIN效率

    2.具体使用

    (1)Hive0.11之前,必须使用MAPJOIN来标记显示地启动该优化操作,由于其需要将小表加载进内存所以要注意小表的大小
    SELECT /*+ MAPJOIN(a)*/ a.columns FROM smalltable a JOIN bigtable ON b a.key=b.key;
    (2)Hive0.11之后,Hive默认启动该优化,也就是不在需要显示的使用MAPJOIN标记,其会在必要的时候触发该优化操作将普通JOIN转换成MapJoin,可以通过以下两个属性来设置该优化的触发时机

    • set hive.auto.convert.join=true;该参数默认为true,即默认打开MapJoin优化
    • set hive.mapjoin.smalltable.filesize=25000000;默认值为2500000(25M),通过配置该属性来确定使用该优化的表的大小,如果表的大小小于此值就会被加载进内存中
      注意:使用默认启动优化的方式可能会出现莫名奇妙的bug(mapjoin不起作用)

    相关文章

      网友评论

          本文标题:MapJoin

          本文链接:https://www.haomeiwen.com/subject/abgvpltx.html