数仓概要

作者: 王小野 | 来源:发表于2020-09-04 20:47 被阅读0次

一、概要

大数据平台由底层至上可分为:原始数据层、数据仓库、数据应用层。

图来自《数据产品经理修炼手册》梁旭鹏

二、原始数据层——ODS(Operational Data Store)层:

从数据来源来说

ODS层主要从 a.客户端用户操作日志(埋点,如PV、点击某按钮的次数)数据、

                        b.业务数据库(后端数据,如成交量、销售额)   获得数据。

从存储量来说

ODS层一般a.存储当前需要加载的数据,

                  b.存储处理完的历史数据,一般一定周期后(如3-6个月,具体看业务需要)清除,以此节省空间。

特点:

ODS数据结构、逻辑与数据来源保持一致,按分钟跟随业务系统数据变化,按天归档后汇入DW。

此层目的

a.一个是对散落多处的业务系统数据进行汇总,便于后续数据的抽取

b.转移一部分查询生成报表的压力,缓解业务系统的压力。

c.便于细节数据问题的定位查询。DW层是汇总后的数据,ODS层与原业务系统结构一致,可在此层进行定位。

三、数据仓库——DW (Data Warehouse)层:

通过ETL抽取(extract)转换(transform)加载(load))对ODS层数据进行逻辑加工处理而得到。为了满足企业做各种决策的集成数据环境,既不产生数据,也不消费数据。

ETL(Extract-Transform-Load),将数据从来源端经过 抽取、转换、加载 至目的端的过程。

a.抽取(extract):数据从数据源读出来

b.转换(transform):把原始数据转换成期望的格式、维度,包含数据清洗,去除噪音过程。(  比如:空值处理 / 规范化数据格式 / 拆分数据 / 验证数据合法性 / 数据替换 / 实现数据规则过滤 / 数据排序 / 数据类型统一转换 )

c.加载(load):把处理后的数据加载到目标处,比如数据仓库

数仓演变图-图来自阿里云云栖社区-付空

当前数据仓库按时效性需求分类,可分为两类:

a.实时数仓:实时产生结果

b.离线数仓:处理和保存大量异构复杂历史全量数据(如T+1的文本、图像、视频、音频);

实时数仓以Kappa架构为主,而离线数仓以传统大数据架构为主。Lambda架构是两者的中间态。

.下图为离线大数据架构示例:

离线数仓架构示例-图来自阿里云云栖社区-付空

此时数仓按汇总处理程度,又可细分为:

a.基础层(DWD明细表)、b.数据集市(DM(Data Mart)面向应用,依据业务需要做不同维度的聚合汇总,如电商的商品主题、订单主题、佣金主题、维度表、事实表,一般是T+1)。

.下图为实时Kappa架构示例:

实时Kappa架构示例 -图来自阿里云云栖社区-付空  

四、数据应用层 —— 消费数据仓库的数据:

应用可分为三类:

1)描述事实类分析应用

主要是对当前事实数据进行可视化展现。比如通过EXCEL\BI工具对常规业务报表,明细数据表等进行可视化展现。

2)预测性分析应用

根据过去的事实数据,通过成熟算法模型对未来业务趋势效果进行计算、预测。

3)指导意见

基于业务经验和过去事实、未来预测输出全面分析专题报告,为商业决策提供指导意见。

相关文章

  • 数仓概要

    一、概要 大数据平台由底层至上可分为:原始数据层、数据仓库、数据应用层。 二、原始数据层——ODS(Operati...

  • 数仓与数仓建模

    一、数据仓库 **英文名称为Data Warehouse,可简写为[DW]或DWH。是为企业[https://ba...

  • 数仓建设规范

    本文将全面讲解数仓建设规范,从数据模型规范,到数仓公共规范,数仓各层规范,最后到数仓命名规范,包括表命名,指标字段...

  • 美团实时数仓建设

    实时数仓和传统数仓的对比 实时数仓和传统数仓的对比主要可以从四个方面考虑:●第一个是分层方式,离线数仓为了考虑到效...

  • 成品仓的管理诊断201706191103

    成品仓的管理异常,简单总结如下: 1、现象: 成品仓的入库数、发货数、客收数、退货数、退库数不准 2、后果: 班组...

  • 说说数仓(3) - 数仓架构

    近几年工作都和BI有关,但是真正对数仓有系统的了解还是在第一家公司的时候,当时跟着IBM的顾问,了解了很多的模型设...

  • 数仓实战01:数仓分层

    1.为什么分层 1.1 数仓分层: 1.2 为什么分层 2.数据集市和数据仓库概念 3.数仓命名规范 3.1 表命...

  • 数仓实战02:数仓理论

    1.范式理论 1. 范式概念1)定义范式可以理解为设计一张数据表的表结构,符合的标准级别。 规范和要求2)优点关系...

  • 数仓概念-hive 数仓简介

    什么是数仓? 数据仓库 datawarehouse DW(DWH) 是一个 向分析的集成化的数据分析平台,分析结果...

  • 【理论+实战知识】数据仓库建设保姆级5W字教程1

    一、数仓基本概念 1、数据仓库架构 我们在谈数仓之前,为了让大家有直观的认识,先来谈数仓架构,“架构”是什么?这个...

网友评论

    本文标题:数仓概要

    本文链接:https://www.haomeiwen.com/subject/relosktx.html