数据仓库与数仓建模

数据仓库与数仓建模

作者: 鄙人王道长 | 来源:发表于2020-07-11 17:52 被阅读0次

数仓建模—指标体系
数据仓库与数仓建模
Hadoop 数据仓库建模2020-06-09
数据仓库(02)数仓、大数据与传统数据库的区别
传统数据仓库在大数据平台上的进化
A/B实验平台
数仓与数仓建模
浅谈数据仓库（DW & BI）（六）
数据仓库(03)数仓建模之星型模型与维度建模
【理论+实战知识】数据仓库建设保姆级5W字教程1

u=3186997546,1762170182&fm=26&gp=0.jpg

1.数据仓库

1.1 什么是数据仓库

数据仓库，英文名为Data Warehouse，简写为DW或DWH。数据仓库，是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合，用于对管理决策过程的支持[1]。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制[2]。

1.2 数据仓库的四个特点

面向主题：数据仓库是按照一定的主题来组织，仅存储与主题相关的数据。主题是指用户在构建数仓时考虑决策时所关注的重点方面，方便以后的数据分析。
集成：数仓的数据来源是任意的，可以是操作型数据库，也可以是网络爬虫，这些数据经过加工与集成，统一成新的数据源。
随时间变化：数仓每天都会从不同数据渠道获取大量数据，关键数据会隐式或显式的基于时间变化。
数据相对稳定：数据进入后一般只进行查询操作，不会进行删改。

1.3 数仓分层

image-20200711150750638.png

1.4 数仓为什么要分层

把复杂问题简单化：将复杂的任务分解成多层来完成，每一层只处理简单的任务，方便定位问题。
减少重复开发：规范数据分层，通过中间层数据，能够减少重复的数据计算，增加计算结果的重用性；
隔离原始数据：使真实数据与统计数据隔离开。

1.5 数据仓库与数据库的区别

功能	数据仓库	数据库
数据范围	存储历史的、完整的、反应历史变化的数据	当前状态数据
数据变化	可添加、无删除、无变更、反应历史变化	支持频繁的增删改查
应用场景	面向分析、支持战略决策	面向业务流程
设计理论	伪范式、适当冗余	遵照范式（一、二、三范式），避免冗余
处理量	非频繁、大批量、高吞吐、有延迟	频繁、小批次、高并发、低延迟

2.关系建模与维度建模

2.1 关系建模

image-20200711152649050.png

关系模型如图所示，严格遵循第三范式（3NF），从图中可以看出，较为松散、零碎，物理表数量多，而数据冗余程度低。由于数据分布于众多的表中，这些数据可以更为灵活地被应用，功能性较强。关系模型主要应用与OLTP系统中，为了保证数据的一致性以及避免冗余，所以大部分业务系统的表都是遵循第三范式的。

2.2 维度建模

image-20200711152943415.png

维度模型如图所示，主要应用于OLAP系统中，通常以某一个事实表为中心进行表的组织，主要面向业务，特征是可能存在数据的冗余，但是能方便的得到数据。

关系模型虽然冗余少，但是在大规模数据，跨表分析统计查询过程中，会造成多表关联，这会大大降低执行效率。所以通常我们采用维度模型建模，把相关各种表整理成两种：事实表和维度表两种。

在维度建模的基础上还可以分为三种模型：星型模型、雪花模型、星座模型。

2.2.1星型模型

image-20200711153405388.png

标准的星型模型周围只有一层，即一个事实表周围只有一层维度表与之对应。

2.2.2雪花模型

image-20200711153637222.png

雪花模型的维度层级比星型模型多，雪花模型比较靠近3NF，但无法完全遵守，因为遵守3NF的新能成本太高。

2.2.3 星座模型

image-20200711153919763.png

星座模型与前两个模型的区别在于事实表的数量，星座模型中的事实表要多。而且事实表之间也有可能会共享维度表。

2.2.4 模型的选择

首先星座与否与数据和需求有关系，与设计无关，不用抉择。

星型还是雪花，取决于性能优先，还是灵活优先。

实际开发中，不会只选择一种，根据情况灵活组合，甚至并存。但是整体来看，更倾向于维度更少的星型模型。尤其是Hadoop体系，减少join就是减少shuffle,性能差别很大。

3.数仓建模

3.1 数仓建模的目的

为什么要进行数据仓库建模？大数据的数仓建模是通过建模的方法更好的组织、存储数据，以便在性能、成本、效率和数据质量之间找到最佳平衡点。一般主要从下面四点考虑

访问性能：能够快速查询所需的数据，减少数据I/O
数据成本：减少不必要的数据冗余，实现计算结果数据复用，降低大数据系统中的存储成本和计算成本
使用效率：改善用户应用体验，提高使用数据的效率
数据质量：改善数据统计口径的不一致性，减少数据计算错误的可能性，提供高质量的、一致的数据访问平台[3]。

3.2 ODS层

保持数据原貌不做任何修改，起到备份数据的作用；
数据采用压缩存储，减少磁盘空间；
创建分区表，防止全盘扫描

3.3 DWD层

DWD层需构建维度模型，一般采用星型模型，呈现的状态一般为星座模型。

维度建模一般按照以下四个步骤：

image-20200711171558295.png

3.4 DWS层

统计各个主题对象的当天行为，服务于DWT层的主题宽表，以及一些业务明细数据，应对特殊需求（例如，购买行为，统计商品复购率）。

3.5 DWT层

以分析的主题对象为建模驱动，基于上层的应用和产品的指标需求，构建主题对象的全量宽表。

3.6 ADS层

对电商系统各大主题指标分别进行分析。

更多首发文章请关注公众号【鄙人王道长】

[ 1 ] https://www.jianshu.com/p/0b6414f92442

[ 2 ] http://www.databi.cn/article-76-1.html

[ 3 ] https://blog.csdn.net/qq_26442553/article/details/105506364

相关文章

数仓建模—指标体系
数据仓库系列文章数仓架构发展史[https://www.ikeguang.com/?p=1582] 数仓建模方法...
数据仓库与数仓建模
1.数据仓库 1.1 什么是数据仓库数据仓库，英文名为Data Warehouse，简写为DW或DWH。数据仓库...
Hadoop 数据仓库建模2020-06-09
数据仓库建模目的：性能，为查询数据成本：减少冗余，计算成本使用效率数据质量 ODS 将数仓需要数据与源系统...
数据仓库(02)数仓、大数据与传统数据库的区别
数据仓库（数仓）与大数据区别，数据仓库（数仓）与数据库的区别，大数据与传统数据库的区别等等，这篇文章带你了解。...
传统数据仓库在大数据平台上的进化
模型的进化一、传统数仓的3NF模型&维度模型数据仓库建模中维度建模和3NF建模并不是OR的关系，它们更像是上下...
A/B实验平台
一、A/B实验数据仓库到指标简介：数据仓库的建设是公司的基础数据基建，目前数仓的建立模型主要包括分层宽表建模或者...
数仓与数仓建模
一、数据仓库 **英文名称为Data Warehouse，可简写为[DW]或DWH。是为企业[https://ba...
浅谈数据仓库（DW & BI）（六）
前一段时间简要描述了数据仓库的发展和一些数仓建模的方法论？简要回顾一下： #42 浅谈数据仓库（DW &BI）（一...
数据仓库(03)数仓建模之星型模型与维度建模
维度建模是一种将数据结构化的逻辑设计方法，也是一种广泛应用的数仓建模方式，它将客观世界划分为度量和上下文。度量...
【理论+实战知识】数据仓库建设保姆级5W字教程1
一、数仓基本概念 1、数据仓库架构我们在谈数仓之前，为了让大家有直观的认识，先来谈数仓架构，“架构”是什么？这个...

网友评论

本文标题：数据仓库与数仓建模

本文链接：https://www.haomeiwen.com/subject/nsbicktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|数据仓库与数仓建模|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！