美文网首页
Hive distinct vs group by

Hive distinct vs group by

作者: 西二旗老司机 | 来源:发表于2018-02-11 13:26 被阅读0次
    select count(distinct id)
    from mytbl;
    
    select count(*)
    from (select distinct id
          from mytbl
         ) t;
    

    两个查询,都会在map阶段count,但reduce阶段,distinct只有一个, group by 可以有多个进行并行聚合,所以group by会快。

    这个stackoverflow讨论中有人提出,当distinct后值很小时,distinct更快,因为在map完成了大部分的count。

    所以,应该具体测试后决定其性能。

    相关文章

      网友评论

          本文标题:Hive distinct vs group by

          本文链接:https://www.haomeiwen.com/subject/zvvktftx.html