美文网首页
数据仓库基本认识

数据仓库基本认识

作者: 有机会一起种地OT | 来源:发表于2020-03-09 20:13 被阅读0次
    什么是数据仓库

    数据仓库(DataWareHouse)是比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义,指的是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史(Time Variant)的数据集合。是出于企业分析性报告决策支持的目的而创建的。

    要注意的是,数据仓库不仅仅是一个很大的数据存储集合,尽管从名字上来看可能是这样的。为了支撑企业业务需求,一套数据管理、存储、计算、展示的处理过程和方法论是数据仓库所必须的。

    数据仓库是一个能及时提供必要数据支撑的数据环境。

    基本特点

    面向主题:传统操作型数据库是面向事物处理的,各个业务系统之间各自分离,单独存在。而数仓中的数据是按照业务主题领域进行划分的,业务上相关联的独立系统的数据会统一进行管理。

    集成性:数据仓库中的数据,是从原有的业务数据库中抽取而来的(因此保留了历史数据)。这些独立的业务系统的数据需要进行清理加工,解决统一单位字长、同名异义、异名同义等问题,来保证相同业务含义的数据在数仓中是一致的。

    相对稳定:数据仓库中的数据主要用于报表和决策,其中的数据操作主要是查询,一般不进行修改操作。不像业务数据库是针对应用面向事务的,经常会有更新操作。

    反映历史:数据仓库保存了业务数据库中的历史信息,系统地记录了各个时间的业务情况,从而反映历史。业务数据库往往只存储最近的业务数据。

    数据仓库的层次构成

    由于数据仓库的数据来源于基础业务数据库,并要进行数据整理,所以将数据按照来源、主题进行分层分区管理是必要的。

    首先,所有数据是基于业务表的。当业务表出现问题时,数据抽取整理过程的血缘追踪能够快速准确定位问题,清楚问题的影响范围。

    分层还可以将问题简单化,将复杂的过程分解为多个步骤。主题的层次分明,还能方便地定位和理解表的含义。

    此外,规范的数据分层,在分层的过程中规划一些通用性强的中间层数据,能减少大量的重复计算。

    一般数据仓库总体上可以分为以下几层:

    • ODS层:Operate data store(操作数据存储)层就是ETL抽取的各种业务系统数据,监控数据等。

    • DW层:数据仓库层存储经过清洗处理后的一致性数据。该层是构建数据仓库时要重点设计的一层。在数据清洗后,要按照主题建立数据建模型。一般可以再细分为明细层、中间层。
      明细层的数据粒度和ODS层是基本相同的。可以在事实表中加入维度数据,减少事实表和维度表的关联。同时可以根据主体进行一定的数据汇总。
      中间层则对明细层的数据进行一定程度的聚合操作。对常用的重要公共指标进行提取,减少重复工作。

    • DM层:数据集市层,按照业务主题进行划分,存储生成的维度较丰富的宽表。DW中的中间层,多数就是生成DM层时常用的重要指标。

    • DIM(维度)层则保存基础维度数据,如用户信息数据,设备信息数据,以及日期维度等等。

    此外还有用于数据展示应用直接使用的结果层,根据展示需求计算结果。TEMP层临时表,则用于放置层间数据清洗转化过程中的中间临时表,不一定长期保存。保存的数据也可用于帮助问题定位等情况。

    实际上,所有的分层都没有绝对的标准。只要总体上符合数据抽取、清洗、按主题汇总分区、提供服务数据的基本结构,就是符合数据仓库设计理念的。

    数据仓库的设计规划

    数据仓库的目的是构建面向分析的集成化数据环境,所以要从分析需求,业务需求的角度出发,来规划数据仓库的结构。

    需求分析
    这就需要了解每个业务过程的参与实体,以及实体可能的分析维度等信息。了解数据源的构成,采集周期。

    抓住关键环节,设计能反映业务状况的指标体系,进而确定需要的分析数据、分析维度,以及时效性需求。反推回去,就可以确定可以提取到中间层的常用关键数据指标,以及数据清洗的目标。

    主题的划分也是依托业务的,根据业务的不同,需要考虑用户、内容、市场、运营、设备、金融等不同的主体。要依托行业业务理解对数据进行归类拆解。

    实体关系模型选择
    要根据业务需求的情况不同,对模型进行选择。这个过程要充分结合业务的具体情况,模型优缺点进行综合考虑,在星型模型、雪花模型等中进行选择。是关系到仓库建模效率的重要环节。


    参看资料:
    数据仓库——MBA智库百科
    初识数仓

    相关文章

      网友评论

          本文标题:数据仓库基本认识

          本文链接:https://www.haomeiwen.com/subject/ojsudhtx.html