详解大数据数据仓库分层架构

作者: Alukar | 来源:发表于2018-06-06 19:16 被阅读60次

数仓相关文章索引（1）
数据仓库系列10- 数据仓库规范
详解大数据数据仓库分层架构
5000字长文分享！数据仓库的建设与框架终于有人给讲明白了
数据仓库分层架构
数据仓库设计
数据仓库(06)数仓分层设计
Flume在企业大数据仓库中数据收集架构
长文解读 "数据仓库" 面试必备知识
数据仓库分层架构深度讲解

大数据数据仓库是基于HIVE构建的数据仓库，分布文件系统为HDFS，资源管理为Yarn，计算引擎主要包括MapReduce/Tez/Spark等，分层架构如下：

1、数据来源层：日志或者关系型数据库，并通过Flume、Sqoop、Kettle等etl工具导入到HDFS，并映射到HIVE的数据仓库表中。

2、事实表是数据仓库结构中的中央表，它包含联系事实与维度表的数字度量值和键。事实数据表包含描述业务（例如产品销售）内特定事件的数据。

3、维度表是维度属性的集合。是分析问题的一个窗口。是人们观察数据的特定角度，是考虑问题时的一类属性，属性的集合构成一个维。数据库结构中的星型结构，该结构在位于结构中心的单个事实数据表中维护数据，其它维度数据存储在维度表中。每个维度表与事实数据表直接相关，且通常通过一个键联接到事实数据表中。星型架构是数据仓库比较流向的一种架构。

星型模式的基本思想就是保持立方体的多维功能，同时也增加了小规模数据存储的灵活性。

说明：

1)、事实表就是你要关注的内容；

2)、维度表就是你观察该事务的角度，是从哪个角度去观察这个内容的。

例如，某地区商品的销量，是从地区这个角度观察商品销量的。事实表就是销量表，维度表就是地区表

4、主题表：主题（Subject）是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念，每一个主题基本对应一个宏观的分析领域。在逻辑意义上，它是对应企业中某一宏观分析领域所涉及的分析对象。例如“销售分析”就是一个分析领域，因此这个数据仓库应用的主题就是“销售分析”。

面向主题的数据组织方式，就是在较高层次上对分析对象数据的一个完整并且一致的描述，能刻画各个分析对象所涉及的企业各项数据，以及数据之间的联系。所谓较高层次是相对面向应用的数据组织方式而言的，是指按照主题进行数据组织的方式具有更高的数据抽象级别。与传统数据库面向应用进行数据组织的特点相对应，数据仓库中的数据是面向主题进行组织的。例如，一个生产企业的数据仓库所组织的主题可能有产品订货分析和货物发运分析等。而按应用来组织则可能为财务子系统、销售子系统、供应子系统、人力资源子系统和生产调度子系统。

5、汇总数据层：聚合原子粒度事实表及维度表，为满足固定分析需求，以提高查询性能为目的，形成的高粒度表，如周报、月报、季报、年报等。

6、应用层：

为应用层，这层数据是完全为了满足具体的分析需求而构建的数据，也是星形结构的数据。应用层为前端应用的展现提现数据，可以为关系型数据库组成。

7、【补充】

数据缓存层：

用于存放接口方提供的原始数据的数据库层，此层的表结构与源数据保持基本一致，数据存放时间根据数据量大小和项目情况而定，如果数据量较大，可以只存近期数据，将历史数据进行备份。此层的目的在于数据的中转和备份。

临时数据表层：

存放临时测试数据表（Temp表），或者中间结果集的表。

这里对大数据技术感兴趣或者想学习大数据的朋友，我整理了一套大数据的学习视频免费分享给大家，从入门到实战都有，大家可以加微信：Lxiao_28获取，还可以入微信群交流！（备注领取资料，真实有效）。

数仓相关文章索引（1）
基本常识数据仓库的源数据类型数据仓库的多维数据模型 BI数据仓库数据分层即席查询算法架构浅谈数据仓库的基...
数据仓库系列10- 数据仓库规范
一. 数据模型架构原则 1.1 数据仓库分层分层的好处：清晰数据结构；数据血缘追踪；减少重复开发；数据关...
详解大数据数据仓库分层架构
大数据数据仓库是基于HIVE构建的数据仓库，分布文件系统为HDFS，资源管理为Yarn，计算引擎主要包括MapRe...
5000字长文分享！数据仓库的建设与框架终于有人给讲明白了
数据仓库，这个几乎是所有大数据开发面试必问的话题。比如数据仓库的分层架构？为什么需要数据仓库建模？数据仓库建模的原...
数据仓库分层架构
数据仓库只是中间集成化数据管理的一个平台。源数据ODS 日志，数据库数据，文档数据，其他数据无任何更改，不对外...
数据仓库设计
数据仓库--事实表数据仓库--事实表和维度表 DW数据仓库分层模型设计如何优雅地设计数据分层 ODS DW D...
数据仓库(06)数仓分层设计
目前主流的数据仓库分层大多为四层,也有五层的架构，这里介绍基本的四层架构。分别为数据贴源层(ods)、数据...
Flume在企业大数据仓库中数据收集架构
数据仓库架构文件数据和关系数据企业大数据仓库之数据收集架构||linux 企业大数据仓库之数据收集架构||wi...
长文解读 "数据仓库" 面试必备知识
数仓分层数仓简介 1. 数据仓库和数据库的区别数据仓库：数据量特别的大，TB~PB 级别会保留历史数据一般使...
数据仓库分层架构深度讲解
前言一、为什么要分层分层的主要原因是在管理数据的时候，能对数据有一个更加清晰的掌控，详细来讲，主要有下面几个...