Hive中bucket-mapjoin和smb-join的区别

作者: liuzx32 | 来源:发表于2019-04-23 22:48 被阅读0次

Hive中bucket-mapjoin和smb-join的区别
Hive 1.2.1 分区和分捅
hdfs，hive大数据的存储管理和显示管理
数据仓库Hive
Hbase学习笔记（七） Hbase与Hive的整合
hive搭建方式概览
hive内部表与外部表
hive sql 中lateral view explode/j
Hive是什么？
HIVE

1 bucket-mapjoin

1.1 条件
1） set hive.optimize.bucketmapjoin = true;
2）一个表的bucket数是另一个表bucket数的整数倍
3） bucket列 == join列
4）必须是应用在map join的场景中

1.2 注意
1）如果表不是bucket的，只是做普通join。

2 smb-join（针对bucket mapjoin 的一种优化）

2.1 条件
1）参数设置

set hive.auto.convert.sortmerge.join=true;
set hive.optimize.bucketmapjoin = true;
set hive.optimize.bucketmapjoin.sortedmerge = true;
set hive.auto.convert.sortmerge.join.noconditionaltask=true;

2）小表的bucket数=大表bucket数
3） Bucket 列 == Join 列 == sort 列
4）必须是应用在bucket mapjoin 的场景中

2.2 注意事项
hive并不检查两个join的表是否已经做好bucket且sorted，需要用户自己去保证join的表，否则可能数据不正确。有两个办法

1）hive.enforce.sorting 设置为 true。
2）手动生成符合条件的数据，通过在sql中用distributed c1 sort by c1 或者 cluster by c1
表创建时必须是CLUSTERED且SORTED，如下

create table test_smb_2(mid string,age_id string)
CLUSTERED BY(mid) SORTED BY(mid) INTO 500 BUCKETS;

3 smb-join: 即sorted merge join

smb-join基于sorted-merge的有序bucket可实现在map端完成join操作，可以有限地减少或避免shuffle的数据量。

网友评论

本文标题：Hive中bucket-mapjoin和smb-join的区别

本文链接：https://www.haomeiwen.com/subject/xmdigqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Hive中bucket-mapjoin和smb-join的区别

相关文章