数据仓库

作者: longLiveData | 来源:发表于2020-09-09 11:18 被阅读0次

大数据经典学习路线（及供参考）之二
实训总结20170923
数据仓库
数据仓库与数仓建模
数据仓库技术
数据仓库笔记
数据仓库
Hive数据仓库与企业级优化
数仓基础概念
数据仓库(01)什么是数据仓库，数仓有什么特点

一、数据仓库概念

数据仓库（Data Warehouse）简称DW或DWH，是数据库的一种概念上的升级，可以说是为满足新需求设计的一种新数据库，而这个数据库是需容纳更多的数据，更加庞大的数据集，从逻辑上讲数据仓库和数据库是没有什么区别的。

为企业所有级别的决策制定过程，提供所有类型数据支撑的战略集合，主要是用于数据挖掘和数据分析，以建立数据沙盘为基础，为消灭消息孤岛和支持决策为目的而创建的。

二、数据仓库特点

面向主题

是企业系统信息中的数据综合、归类并进行分析的一个抽象，对应企业中某一个宏观分析领域所涉及的分析对象。

比如购物是一个主题，那么购物里面包含用户、订单、支付、物流等数据综合，对这些数据要进行归类并分析，分析这个对象数据的一个完整性、一致性的描述，能完整、统一的划分对象所设计的各项数据。如果此时要统计一个用户从浏览到支付完成的时间时，在购物主题中缺少了支付数据或订单数据，那么这个对象数据的完整性和一致性就可能无法保证了。

数据集成

数据仓库的数据是从原有分散的数据库中的数据抽取而来的。

操作型数据和支持决策分析型（DSS）数据差别甚大，这里需要做大量的数据清洗与数据整理的工作。
第一：每一个主题的源数据在原有分散数据库中的有许多重复和不一致，且不同数据库的数据是和不同的应用逻辑捆绑的。
第二：数据仓库中的综合性数据不能从原有的数据库系统直接得到，因此在数据进入数据仓库之前要进过统一和综合。（字段同名异意，异名同义，长度等）

不可更新

数据仓库的数据主要是提供决策分析用，设计的数据主要是数据查询，一般情况下不做修改，这些数据反映的是一段较长时间内历史数据的内容，有一块修改了影响的是整个历史数据的过程数据。

数据仓库的查询量往往很大，所以对数据查询提出了更高的要求，要求采用各种复杂的索引技术，并对数据查询的界面友好性和数据凸显性提出更高的要求。

随时间不断变化

数据仓库中的数据不可更新是针对应用来说，从数据的进入到删除的整个生命周期中，数据仓库的数据是永远不变的。
数据仓库的数据是随着时间变化而不断增加新的数据。
数据仓库随着时间变化不断删去久的数据内容，数据仓库的数据也有时限的，数据库的数据时限一般是60 ~ 90天，而数据仓库的数据一般是5年~10年。
数据仓库中包含大量的综合性数据，这些数据很多是跟时间有关的，这些数据特征都包含时间项，以标明数据的历史时期。

三、数据仓库分层

目的

清晰数据结构：每一个数据分层都有它的作用域和职责，在使用表的时候能更方便地定位和理解
减少重复开发：规范数据分层，开发一些通用的中间层数据，能够减少极大的重复计算
统一数据口径：通过数据分层，提供统一的数据出口，统一对外输出的数据口径
复杂问题简单化：将一个复杂的任务分解成多个步骤来完成，每一层解决特定的问题

理解分层

从对应用的支持来讲，我们希望越靠上层次，越对应用友好。

从能力范围来讲，我们希望80%需求由20%的表来支持。80%的需求，我们都希望以对应用很友好的方式来支持，而不是直接暴露给应用方原始日志。

从数据聚合程度来讲，我们希望，越上层数据的聚合程度越高

通用的数据分层

数据运营层（ ODS ）：存放的是接入的原始数据
数据仓库层（DW）：存放我们要重点设计的数据仓库中间层数据
数据应用层（APP）：面向业务定制的应用数据

1.数据运营层：ODS（Operational Data Store）
最接近数据源中数据的一层，数据源中的数据，经过抽取、洗净、传输，也就说传说中的 ETL 之后，装入本层。本层的数据大多按照源头业务系统的分类方式而分类的。
考虑后续可能需要追溯数据问题，因此对于这一层就不建议做过多的数据清洗工作，原封不动地接入原始数据即可，至于数据的去噪、去重、异常值处理等过程可以放在后面的DWD层来做。
2.数据仓库层：DW（Data Warehouse）
核心的一层，在这里，从 ODS 层中获得的数据按照主题建立各种数据模型。
- 2.1数据明细层：DWD（Data Warehouse Detail）
  该层一般保持和ODS层一样的数据粒度，并且提供一定的数据质量保证。同时，为了提高数据明细层的易用性，该层会采用一些维度退化手法，将维度退化至事实表中，减少事实表和维表的关联。另外，在该层也会做一部分的数据聚合，将相同主题的数据汇集到一张表中，提高数据的可用性，后文会举例说明。
- 2.2数据中间层：DWM（Data WareHouse Middle）
  该层会在DWD层的数据基础上，对通用的核心维度进行聚合操作，算出相应的统计指标对数据做轻度的聚合操作，生成一系列的中间表，提升公共指标的复用性，减少重复加工。
- 2.3数据服务层：DWS（Data WareHouse Servce）
  又称数据集市或宽表。按照业务划分，如流量、订单、用户等，生成字段比较多的宽表，用于提供后续的业务查询，OLAP分析，数据分发等。一般来讲，该层的数据表会相对比较少，一张表会涵盖比较多的业务内容，由于其字段较多，因此一般也会称该层的表为宽表。
3.数据应用层：APP（Application）
在这里，主要是提供给数据产品和数据分析使用的数据，一般会存放在 ES、PostgreSql、Redis等系统中供线上系统使用，也可能会存在 Hive 或者 Druid 中供数据分析和数据挖掘使用。比如我们经常说的报表数据，一般就放在这里。
4.维表层（Dimension）
最后补充一个维表层，维表层主要包含两部分数据：
高基数维度数据：一般是用户资料表、商品资料表类似的资料表。数据量可能是千万级或者上亿级别。
低基数维度数据：一般是配置表，比如枚举值对应的中文含义，或者日期维表。数据量可能是个位数或者几千几万。

举例说明

技术实现

Data Source：数据源一般是业务库和埋点，当然也会有第三方购买数据等多种数据来源方式。业务库的存储一般是MySQL 和 PostgreSQL。
ODS 层：ODS 的数据量一般非常大，所以大多数公司会选择存在HDFS上，即Hive或者Hbase，Hive居多。
DW 层：一般和 ODS 的存储一致，但是为了满足更多的需求，也会有存放在 PG 和 ES 中的情况。
APP 层：应用层的数据，一般都要求比较快的响应速度，因此一般是放在 Mysql、PG、Redis中。
计算引擎的话，可以简单参考图中所列就行。目前大数据相关的技术更新迭代比较快，本节所列仅为简单参考。

网友评论

本文标题：数据仓库

本文链接：https://www.haomeiwen.com/subject/jsqeektx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

数据仓库

一、数据仓库概念

二、数据仓库特点

面向主题

数据集成

不可更新

随时间不断变化

三、数据仓库分层

目的

理解分层

从对应用的支持来讲，我们希望越靠上层次，越对应用友好。

从能力范围来讲，我们希望80%需求由20%的表来支持。80%的需求，我们都希望以对应用很友好的方式来支持，而不是直接暴露给应用方原始日志。

从数据聚合程度来讲，我们希望，越上层数据的聚合程度越高

通用的数据分层

举例说明

技术实现

相关文章

大数据经典学习路线（及供参考）之二

实训总结20170923

数据仓库

数据仓库与数仓建模

数据仓库技术

数据仓库笔记

数据仓库

Hive数据仓库与企业级优化

数仓基础概念

数据仓库(01)什么是数据仓库，数仓有什么特点

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读