有一张财务流水表,未分库分表,目前的数据量为9555695,分页查询使用到了limit,优化之前的查询耗时16 s...[作者空间]
一、 什么是数据仓库、数据集市和数据湖? 1、数据仓库 早期系统采用数据库来存放管理数据,但是随着大数据技术的兴...[作者空间]
Hbase Hbase是怎么写数据的? HDFS和HBase各自使用场景 Hbase的存储结构 热点现象(数据倾斜...[作者空间]
概述 随着业务发展和数据量的增加,大数据应用开发已成为部门应用开发常用的开发方式,由于部门业务特点的关系,spar...[作者空间]
01 、 顶层设计法 顾名思义,顶层设计法就是先做一个数据治理顶层设计的规划,然后按照规划执行即可。 做过咨询的彭...[作者空间]
一、Checkpoint 简介 Flink 的 Checkpoint 机制是其可靠性的基石。当一个任务在运行过程中...[作者空间]
1.前言 2.状态原理 2.1. 状态、状态后端、Checkpoint 三者之间的区别及关系? 结论:拿五个字做比...[作者空间]
需求 各分类商品购物车存量Top10 前提 今天是 2020-06-14 建表语句 完整sql 步骤 只讨论 三级...[作者空间]
需求-各品牌商品交易统计 统计周期统计粒度指标最近1、7、30日品牌订单数最近1、7、30日品牌订单人数最近1、7...[作者空间]
需求说明如下 统计周期统计粒度指标说明最近7、30日品牌复购率重复购买人数占购买人数比例 建表语句 前提 今天是 ...[作者空间]
漏斗分析是一个数据分析模型,它能够科学反映一个业务过程从起点到终点各阶段用户转化情况。由于其能将各阶段环节都展示出...[作者空间]
前提 今天为 2020-06-14 建表语句 步骤 求出 2020-06-07 - 2020-06-13...[作者空间]
需求 用户路径分析,顾名思义,就是指用户在APP或网站中的访问路径。为了衡量网站优化的效果或营销推广的效果,以及了...[作者空间]
前提 今天是 2020-6-14日 ▶ 需求一 [ 最近 1 7 30 天 个渠道统计] 建表语句 步骤: dw...[作者空间]
Spark 内存管理和消费模型 Spark Shuffle 过程 Spark Shuffle OOM 可能性分析 ...[作者空间]
一、HBase简介 1.1 定义 1.2 HBase数据模型 1.2.1 HBase逻辑结构 1.2.2 HBas...[作者空间]
一、zookeeper入门 1.1 概述 1.2 zookeeper特点 1.3 zookeeper数据结构 1....[作者空间]
0.补充 0.1 什么是hive 0.2 优缺点 0.3 Hive架构原理 0.4 hive与数据库的比较 由于 ...[作者空间]
1. 参考文档 https://github.com/apache/carbondata/blob/master/...[作者空间]
一、什么是数据倾斜 正常的数据分布,在理论上都是数据倾斜的。数据倾斜是大量的相同key被partition分配到一...[作者空间]