美文网首页
count distinct shuffle 次数

count distinct shuffle 次数

作者: sealwang24 | 来源:发表于2020-05-20 16:03 被阅读0次

问题背景:

set hive.execute.engine=spark;
--set hive.execute.engine=MR;
select count(distinct rowkey) cnt  
from db::table
where f_date = 20200326;

这样一条sql 在执行引擎spark 远快于MR

Spark 引擎:

image.png

MR 引擎 :

image.png

结论:

  • spark引擎是2次shuffle,先group by 一次,再1次shuffle求和
  • MR引擎就是一次shuffle,直接在一个reducer端去重

相关文章

网友评论

      本文标题:count distinct shuffle 次数

      本文链接:https://www.haomeiwen.com/subject/yjrnohtx.html