美文网首页
数仓理论

数仓理论

作者: IsComing乜邪 | 来源:发表于2020-03-26 15:04 被阅读0次

表的分类

1 实体表,一般是指一个现实存在的业务对象,比如用户,商品,商家等

2 维度表,一般是指对应一些业务状态,编号的解释表。也可以称为码表。比如地区表,订单状态,支付方式,审判状态

3 事务型事实表,一般指随着业务发生不断产生的数据。特点是一旦发生不会再变化。一般比如,交易流水,操作日志等

4周期型事实表,一般随着业务发生不断产生数据,与事务型不同的是,数据会随着业务周期性的推进而变化,比如订单,其中订单状态会周期性变化,在比如,请假,贷款申请,随着批复状态在周期性变化

同步策略

1 全量表 :存储完整的数据

2 增量表 : 存储新增加的数据

3 新增及变化表 : 存储新增加的数据和变化的数据

4 拉链表 :对新增及变化表做 定期合并

实体表同步策略

实体表:比如用户,商品,商家,销售员等

实体表数据量比较小:通常可以做每日全量,就是每天存一份完整数据。即每日全量。

维度表同步策略

维度表:比如订单状态,审批状态,商品分类

维度表数据量比较小:通常可以做每日全量,就是每天存一份完整数据。即每日全量。

说明:

1)针对可能会有变化的状态数据可以存储每日全量。

2)没变化的客观世界的维度(比如性别,地区,民族,政治成分,鞋子尺码)可以只存一份固定值。

事务型事实表同步策略

事务型事实表:比如,交易流水,操作日志,出库入库记录等。

因为数据不会变化,而且数据量巨大,所以每天只同步新增数据即可,所以可以做成每日增量表,即每日创建一个分区存储。

周期型事实表同步策略

周期型事实表:比如,订单、请假、贷款申请等

这类表从数据量的角度,存每日全量的话,数据量太大,冗余也太大。如果用每日增量的话无法反应数据变化。

每日新增及变化量,包括了当日的新增和修改。一般来说这个表,足够计算大部分当日数据的。但是这种依然无法解决能够得到某一个历史时间点(时间切片)的切片数据。

所以要用利用每日新增和变化表,制作一张拉链表,以方便的取到某个时间切片的快照数据。所以我们需要得到每日新增及变化量。

相关文章

  • 从0开始研究数据仓库的一些想法

    研究方向 数仓理论:分层设计理论、维度建模理论基于OLAP数仓:adb/clickhouse/greenplum/...

  • 数仓理论

    表的分类 1 实体表,一般是指一个现实存在的业务对象,比如用户,商品,商家等 2 维度表,一般是指对应一些业务状态...

  • 数仓实战02:数仓理论

    1.范式理论 1. 范式概念1)定义范式可以理解为设计一张数据表的表结构,符合的标准级别。 规范和要求2)优点关系...

  • 数仓分层

      数仓分层的理论不仅是一种数据仓库的建设思想,对大数据的统计分析过程设计同样具有指导意义。  数仓分层的理论有很...

  • 业务数仓理论与搭建

    # 表的分类 1.实体表 现实存在的业务对象。 2.维度表 对应一些业务状态,编号的解释表。 3.事务性事实表 随...

  • 数仓建模分层理论

    公众号:大数据技术派 分层建设理论 简单点儿,直接ODS+DM就可以了,将所有数据同步过来,然后直接开发些应用层的...

  • 数仓初识-理论知识

    数据仓库 数据仓库诞生的背景: 历史数据积存(避免业务冷数据堆积在业务库中,导致性能下降) 历史数据分析需要 概念...

  • 数仓建模分层理论

    简单点儿,直接ODS+DM就可以了,将所有数据同步过来,然后直接开发些应用层的报表,这是最简单的了;当DM层的内容...

  • 数仓与数仓建模

    一、数据仓库 **英文名称为Data Warehouse,可简写为[DW]或DWH。是为企业[https://ba...

  • 数仓建设规范

    本文将全面讲解数仓建设规范,从数据模型规范,到数仓公共规范,数仓各层规范,最后到数仓命名规范,包括表命名,指标字段...

网友评论

      本文标题:数仓理论

      本文链接:https://www.haomeiwen.com/subject/ndrcuhtx.html