数据仓库的分层，你知道吗？

作者: wenay | 来源:发表于2021-08-11 15:26 被阅读0次

数据仓库更多代表的是一种对数据的管理和使用的方式，它是一整套包括了数据建模、ETL（数据抽取、转换、加载）以及作用调度等在内的完整的理论体系流程。

数据仓库在构建过程中通常都需要进行分层处理。业务不同，分层的技术处理手段也不同。分层的主要原因是在管理数据的时候，能对数据有一个更加清晰的掌控。详细来讲，主要有如下几个原因。

a. 清晰的数据结构每一个数据分层都有它的作用域，在使用表的时候能更方便地定位和理解。

b. 将复杂的问题简单化将一个复杂的任务分解成多个步骤来完成，每一层只处理单一的问题，比较简单和容易理解。而且便于维护数据的准确性，当数据出现问题之后，可以不用修复所有的数据，只需要从有问题的地方开始修复。

c. 减少重复开发规范数据分层，开发一些通用的中间层数据，能够减少极大的重复计算。

d. 屏蔽原始数据的异常屏蔽业务的影响，不必改一次业务就需要重新接入数据。

e. 数据血缘的追踪最终给业务呈现的是一个能直接使用业务表，但是它的来源很多，如果有一张来源表出问题了，借助血缘最终能够快速准确地定位到问题，并清楚它的危害范围。

数仓的常见分层一般为三层，即数据操作层、数据仓库层和应用数据层（数据集市层）。当然根据研发人员经验或者业务，可以分为更多不同的层，只要能达到流程清晰、方便查数即可。

下面，通过一张图来展示数仓仓库的分层情况，如图所示。

ODS（Operation Data Store 数据准备区）

数据仓库源头系统的数据表通常会原封不动的存储一份，这称为ODS层，也称为准备区。它们是后续数据仓库层加工数据的来源。ODS层数据的主要来源是业务数据库、埋点日志、其他数据源。

业务数据库：可使用DataX、Sqoop等工具来抽取，每天定时抽取一次；在实时应用中，可用Canal监听MySQL的 Binlog，实时接入变更的数据。

埋点日志：线上系统会打入各种日志，这些日志一般以文件的形式保存，可以用 Flume 定时抽取。

其他数据源：从第三方购买的数据、或是网络爬虫抓取的数据。

DW（Data Warehouse 数据仓库层）

该层包含DWD、DWS、DIM层，由ODS层数据加工而成，主要是完成数据加工与整合，建立一致性的维度，构建可复用的面向分析和统计的明细事实表，以及汇总公共粒度的指标。

a. DWD（Data Warehouse Detail 细节数据层），是业务层与数据仓库的隔离层。以业务过程作为建模驱动，基于每个具体的业务过程特点，构建细粒度的明细层事实表。可以结合企业的数据使用特点，将明细事实表的某些重要维度属性字段做适当冗余，也即宽表化处理。

b. DWS（Data Warehouse Service 服务数据层），基于DWD的基础数据，整合汇总成分析某一个主题域的服务数据。以分析的主题为建模驱动，基于上层的应用和产品的指标需求，构建公共粒度的汇总指标事实表。

c. DIM（公共维度层），基于维度建模理念思想，建立一致性维度。

d. TMP（临时层），存放计算过程中临时产生的数据。

该层是基于DW层的数据，整合汇总成主题域的服务数据，用于提供后续的业务查询等。

数据仓库层次的划分不是固定不变的，可以根据实际需求进行适当裁剪或者是添加。如果业务相对简单和独立，可以将DWD、DWS进行合并。下面，以第三方支付企业支付宝数据仓库体系结构为例进行展示，如下图所示。

本文标题：数据仓库的分层，你知道吗？

本文链接：https://www.haomeiwen.com/subject/djdcbltx.html