去重指标增量计算优化

去重指标增量计算优化

作者: 黑曼巴yk | 来源:发表于2020-01-11 23:22 被阅读0次

去重指标增量计算优化
使用 Flink Hudi 构建流式数据湖
PostgreSQL中JSON数组的增量更新
Flutter：优化合集，持续更新~~~
获取布林线的上轨，中轨，下轨的数据
爬虫：5.增量爬取和去重
VSM008_优化增量阅读（六）增量学习的“姿势”_01Supe
Sqoop增量导入与数据去重
Flink-时间窗口-算子函数-Windows Function
Spark Streaming性能优化总结

背景

在开发时候经常需要统计最近N天数据,用户数目去重等统计指标

select visitor_id
from 
  (  
    select item_id, count(distinct visitor_id) as ipv_uv_1d_001
    from crm_bi.log_vst_di
    where ds <= '${bizdate}'
    and ds >= to_char(dateadd(to_date('${bizdate}','yyyymmdd'),-29,'dd'),'yyyymmdd')
     group by item_id
  ) a

上面可能会造成严重问题，需要的Map instance数目太多。超过99999个限制。为什么Instance个数需要那么多呢？原因：每天的日志数据很大，30天的数据量更是惊人，这时候Select 操作需要大量的Map Instance，结果查过了Instance的上限，代码无法运行

目的

如何计算长周期的指标，又不影响性能呢?

多天汇总的问题根源在数据量问题，如果把数据量降低，就可以解决
减少数据量最直接办法就是把每天的数据量都减少，因此需要构建临时表，对1d的数据进行轻度汇总，这样就能去掉很多重复数据，减少数据量。

方案

构建中间表，每天汇总一次
计算多天的数据，依赖中间表进行汇总

insert overwrite table demo_itm_visitor_xx(ds='${bizdate}')
select item_id, visitor_id
from (
  select  item_id, visitor_id
  from crm_bi.log_vst_di
  where ds='${bizdate}'
  group by item_id, visitor_id 
) a

对demo_itm_visitor_xx表进行30天汇总

select visitor_id
from
    (select   item_id
             ,count(distinct visitor_id) as ipv_uv_1d_001
     from     demo_itm_visitor_xx
     where    ds <= '{bizdate}'
     and      ds >= to_char(dateadd(to_date('${bizdate}','yyyymmdd'),-29,'dd'),'yyyymmdd')
     group by item_id
    ) a

思考

上面方法优点是提高了性能，缺点是每次计算多天的数据时候，都要N个分区的数据那么是否有一种方法，不需要计算，已经有一个存放最近N天数据的

增长累计方式计算长周期指标

例子: 求最近1天店铺的老访客数，老访客定义为:最近180天有访问，就算老访客
思路:

将买家从前天开始往前推180天，记做集合A；也就是说从-180到-1的访客数据都在集合A中了
更新公式为：An=An-1+Ao-A ，即今天的nd数据=历史全量数据+今天的增量数据-最老那天的增量数据
使用集合A和昨天的访客做Join操作。如果在集合A中,则是老访客,否则是新访客。

相关文章

去重指标增量计算优化
背景在开发时候经常需要统计最近N天数据,用户数目去重等统计指标上面可能会造成严重问题，需要的Map insta...
使用 Flink Hudi 构建流式数据湖
本文介绍了 Flink Hudi 通过流计算对原有基于 mini-batch 的增量计算模型不断优化演进。用户可以...
PostgreSQL中JSON数组的增量更新
标签 PGSQL JSON，JSON数组去重，PGSQL JSON数组去重，PGSQL JSON数组增量插入背景...
Flutter：优化合集，持续更新~~~
关于Build的优化 RepaintBoundary就是重绘边界，用于重绘时独立于父布局的。关于耗时计算的优化 ...
获取布林线的上轨，中轨，下轨的数据
BOLL指标的计算方法以日BOLL指标计算为例，其计算方法如下：日BOLL指标的计算公式日BOLL指标的计算...
爬虫：5.增量爬取和去重
增量爬取和去重增量爬取当一个站点有数据更新的时候，需要进行增量爬取，通常有以下集中情况某个特定页面数据更新 ...
VSM008_优化增量阅读（六）增量学习的“姿势”_01Supe
(2019-06-26-周三 05:04:29) 播放网址_bilibili_VSM008_优化增量阅读（六）增量...
Sqoop增量导入与数据去重
sqoop是可以配置job自动运行的，能自动记录上次同步的时间，不过如果任务失败就不方便重跑了（这方面经验不足）。...
Flink-时间窗口-算子函数-Windows Function
分类增量：ReduceFunction(数据归并)：两两元素相互计算，并产生输出元素增量：AggregateF...
Spark Streaming性能优化总结
代码优化部分多个Action计算最好基于同一个RDD进行计算操作, 并且对相同的RDD进行Cache操作，避免重...

网友评论

本文标题：去重指标增量计算优化

本文链接：https://www.haomeiwen.com/subject/vlabactx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|去重指标增量计算优化|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！