大数据开发之Hive案例篇5- count(distinct)

大数据开发之Hive案例篇5- count(distinct)

作者: 只是甲 | 来源:发表于2023-05-23 10:02 被阅读0次

Hive之COUNT DISTINCT优化
01-mysql基础
Hive count(DISTINCT id )
Hive SQL优化之 Count Distinct
hive sql优化实例
DataFrame的去重，none值填充及异常值处理2018-0
Hive分析函数的使用
SQLZOO - SUM&COUNT笔记
微信小程序之云开发实现count(distinct)去重统计
sendmail使用案例1

一. 问题描述

需求:

4895708a4e03a6ab96b34ae81456e58.png

卡在了reduce，只有一个reduce
MR job卡在了最后一个reduce，任务迟迟未运行成功

image.png

二. 解决方案

2.1 调整reduce个数

一般一个reduce处理的数据是1G，所以首先想能不能增加reduce的个数来调优上述Hive SQL。

-- 可以指定每个redcue处理的数据size，也可以直接指定reduce的个数
set hive.exec.reducers.bytes.per.reducer = 12000000;

经验证，调整了上述参数后，问题依旧没有得到解决。

2.2 SQL改写

上述SQL所代表的业务逻辑是求截止当前每分钟的用户访问数(如出现多次，只算一次)
SQL也是因为 count(distinct)的存在，导致reduce数分配少了，进而出现数据性能问题。

所以首先我们想想能不能把count(distinct)去掉
因为本身是离线数据，此时可以借助临时表，首先把每个用户首次访问的时间记录下来，这样就可以将处理的数据大大减少，最后再通过开窗函数处理即可。
完美解决:

image.png

相关文章

Hive之COUNT DISTINCT优化
COUNT(DISTINCT xxx) 在hive中很容易造成数据倾斜。针对这一情况，网上已有很多优化方法，这里不...
01-mysql基础
1 null值注意 count数据丢失null值行 distinct数据丢失当使用count(distinct c...
Hive count(DISTINCT id )
SELECT count(DISTINCT orderid) FROM test.subOrderAllDe...
Hive SQL优化之 Count Distinct
Hive是Hadoop的子项目，它提供了对数据的结构化管理和类SQL语言的查询功能。SQL的交互方式极大程度地降低...
hive sql优化实例
Hive中SQL的优化技巧，核心思想是避免数据倾斜。 1、避免在同一个查询中同时出现count, distinct...
DataFrame的去重，none值填充及异常值处理2018-0
spark 数据建模准备去重 count of rows: 7count of distinct rows: 6...
Hive分析函数的使用
Hive分析函数的使用测试数据集： SQL语句## COUNT、SUM、MIN、MAX、AVG ## COUNT...
SQLZOO - SUM&COUNT笔记
依然是World 表格数据。知识点：SUM /COUNT/DISTINCT/MAX/GROUP BY/GROUP...
微信小程序之云开发实现count(distinct)去重统计
数据库查询统计肯定少不了这个： select count(distinct column ) from table...
sendmail使用案例1
sendmail使用案例1 查询hive数据后发邮件给开发人员邮件预览

网友评论

本文标题：大数据开发之Hive案例篇5- count(distinct)

本文链接：https://www.haomeiwen.com/subject/ecufzrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|大数据开发之Hive案例篇5- count(distinct) |投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！