说说数仓(3) - 数仓架构

作者: 橘猫吃不胖 | 来源:发表于2018-07-03 11:59 被阅读1809次

近几年工作都和BI有关,但是真正对数仓有系统的了解还是在第一家公司的时候,当时跟着IBM的顾问,了解了很多的模型设计的故事,对于入门和启蒙有很大的帮助。后面对于数仓的理解,其实都是工作中一点一点实践和摸索得来的。
前面我们说了传统数仓和互联网数仓的区别,主要提到了服务用户群的不同,这里说的传统和互联网其实都是相对而言的,这一回呢,我们说说数仓的架构。

现在说数仓,更多的会和数据平台或者基础架构搭上,已经融合到整个基础设施的搭建上。这里呢,我们不说Hadoop各种组件之间的配合,我们就简单说下数仓的分层架构。

数仓建模

说到数仓建模,就得提下经典的2套理论:

  • 范式建模
    Inmon提出的集线器的自上而下(EDW-DM)的数据仓库架构。

  • 维度建模
    Kimball提出的总线式的自下而上(DM-DW)的数据仓库架构。

数仓的建模或者分层,其实都是为了更好的去组织、管理、维护数据,实际开发时会整合2种方式去使用,当然,还有些其他的,像Data Vault模型、Anchor模型,暂时还没有应用过,就不说了。
维度建模,一般都会提到星型模型、雪花模型,星型模型做OLAP分析很方便。

数仓分层

简单点儿,直接ODS+DM就可以了,将所有数据同步过来,然后直接开发些应用层的报表,这是最简单的了;当DM层的内容多了以后,想要重用,就会再拆分一个公共层出来,变成3层架构,最近看了本阿里的书,《大数据之路》,里面有很多数仓相关的内容,很不错,参考后,目前使用的分层模式如下:


按照这种分层方式,我们的开发重心就在dwd层,就是明细数据层,这里主要是一些宽表,存储的还是明细数据;到了dws层,我们就会针对不同的维度,对数据进行聚合了,按道理说,dws层算是集市层,这里一般按照主题进行划分,属于维度建模的范畴;ads就是偏应用层,各种报表的输出了。
基于这种分层方式,感觉用起来还是很方便的,嗯,先到这里。

相关文章

  • 说说数仓(3) - 数仓架构

    近几年工作都和BI有关,但是真正对数仓有系统的了解还是在第一家公司的时候,当时跟着IBM的顾问,了解了很多的模型设...

  • 【理论+实战知识】数据仓库建设保姆级5W字教程1

    一、数仓基本概念 1、数据仓库架构 我们在谈数仓之前,为了让大家有直观的认识,先来谈数仓架构,“架构”是什么?这个...

  • 数仓建设保姆级教程,离线和实时理论+实战)

    文档大纲: 一、数仓基本概念 1. 数据仓库架构 我们在谈数仓之前,为了让大家有直观的认识,先来谈数仓架构,“架构...

  • 数仓--Hive--面试题准备

    数仓--Hive-面试之Hive与HBase的区别数仓--Hive-面试之Hive架构原理数仓--Hive-面试之...

  • 数仓建模—指标体系

    数据仓库系列文章 数仓架构发展史[https://www.ikeguang.com/?p=1582] 数仓建模方法...

  • 说说数仓(1) - 什么是数仓

    最近几年工作中,接触到一些关于数仓建模的工作,说是建模,其实个人感觉自己也就入个门而已,有一点儿自己的理解,这里会...

  • 说说数仓(2) - 传统数仓与互联网数仓

    刚看到几篇文章,写得非常好,感觉是最近看到关于数仓关于数据平台最好的文章了,这里简单总结下自己觉得好的地方。原文链...

  • 数仓架构对比

    快手数仓 架构image.png 规模image.png 快手目前集群规模有 1500 台左右,作业数量大约是 5...

  • 数仓与数仓建模

    一、数据仓库 **英文名称为Data Warehouse,可简写为[DW]或DWH。是为企业[https://ba...

  • 数仓建设规范

    本文将全面讲解数仓建设规范,从数据模型规范,到数仓公共规范,数仓各层规范,最后到数仓命名规范,包括表命名,指标字段...

网友评论

    本文标题:说说数仓(3) - 数仓架构

    本文链接:https://www.haomeiwen.com/subject/nghruftx.html