美文网首页
数据仓库的学习

数据仓库的学习

作者: 顾道夫 | 来源:发表于2019-12-09 15:58 被阅读0次

事实表、维度表、维度、度量

  • 事实表:一般为具有可统计量化的信息的表。如订单表适合作为事实表,其中有订购数量、订单金额等可以被统计和量化的列。

  • 维度表:一般为表示分析的业务角度的表。如商品信息表适合作为维度表,其中有商品类别、商品商标等可以作为分析的业务角度的列。时间表通常作为维度表使用,便于按日 / 周 / 月 / 季 / 年统计业务数据。

  • 维度:一般为可分析的业务角度,如订单日期表示日期维度、商品 ID 表示商品维度。

  • 度量:一般为可统计量化的数值信息,如销售总额、销售总量等。通常为可量化的列与函数一起配合使用,如 SUM、COUNT、TOP_N 等。

Index

索引,在数据加载时将构建索引,索引将被用于加速查询。索引分为聚合索引与明细索引。

  • Aggregate Index
    聚合索引,本质是多个维度和度量的组合,适合回答聚合查询,比如某年的销售总额。(sum函数等聚合函数)
  • Table Index
    表明细索引,本质是大宽表的多路索引,适合回答精确到记录的明细查询,比如某用户的最近 100 笔交易。(select col1,col2 from a;col1,col2为明细索引)

星型模型:

星型模是一种多维的数据关系,它由一个事实表和一组维表组成。每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。强调的是对维度进行预处理,将多个维度集合到一个事实表,形成一个宽表。这也是我们在使用hive时,经常会看到一些大宽表的原因,大宽表一般都是事实表,包含了维度关联的主键和一些度量信息,而维度表则是事实表里面维度的具体信息,使用时候一般通过join来组合数据,相对来说对OLAP的分析比较方便。

雪花模型:

当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型。雪花模型是对星型模型的扩展。它对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的 "层次 " 区域,这些被分解的表都连接到主维度表而不是事实表。雪花模型更加符合数据库范式,减少数据冗余,但是在分析数据的时候,操作比较复杂,需要join的表比较多所以其性能并不一定比星型模型高。

星型模型和雪花模型的优劣对比:
属性 星型模型 雪花模型
数据总量
可读性 容易
表个数
查询速度
冗余度
对事实表的情况 增加宽度 字段比较少,冗余底
扩展性

总结:
通过上面的对比,我们可以发现数据仓库大多数时候是比较适合使用星型模型构建底层数据Hive表,通过大量的冗余来提升查询效率,星型模型对OLAP的分析引擎支持比较友好,这一点在Kylin中比较能体现。而雪花模型在关系型数据库中如MySQL,Oracle中非常常见,尤其像电商的数据库表。在数据仓库中雪花模型的应用场景比较少,但也不是没有,所以在具体设计的时候,可以考虑是不是能结合两者的优点参与设计,以此达到设计的最优化目的。

相关文章

  • 数据仓库系列之维度建模

    上一次我已经简单介绍了数据分析中为啥要建立数据仓库,从本周开始我们开始一起学习数据仓库。学习数据仓库,你一定...

  • 11本数据仓库大数据开发推荐经典书籍资料包分享

    最近整理了数据仓库推荐经典书籍资料包,学习数据仓库必备,包含下面的内容,包含《阿里巴巴大数据之路》和《数据仓库工具...

  • 大数据经典学习路线(及供参考)之 二

    2.1 数据仓库增强 2.1.1 数据仓库及数据模型入门 什么是数据仓库、数据仓库的意义、数据仓库核心概念、数据仓...

  • 数据仓库的学习

    事实表、维度表、维度、度量 事实表:一般为具有可统计量化的信息的表。如订单表适合作为事实表,其中有订购数量、订单金...

  • 数据仓库的学习

    1.数据仓库是什么? 数据仓库是一个从多个数据源收集的信息存储,存放在一个一致的模式下,并通常驻留在单个站点。数据...

  • 数据仓库

    目录一. 什么是数据仓库二. 数据仓库能干什么?三. 数据仓库的特点四. 数据仓库发展历程五. 数据库与数据仓库的...

  • 数据仓库(3)---数据仓库系统的实现与使用

    【声明】本文章来自穆晨 - 博客园,记录于此方便后期的学习和查阅 一、前言 数据仓库建模是数据仓库开发中最核心的部...

  • 数据仓库笔记

    数据仓库的作用 数据仓库的特点 数据仓库中的数据是面向主题的 数据仓库中的数据是集成的 数据仓库中的数据是不可更新...

  • 实训总结20170923

    数据仓库概述 什么是数据仓库? 创始人W.H.Inmon在《建立数据仓库》一书中对数据仓库的定义是:数据仓库就是面...

  • 数据仓库技术

    数据仓库基础 数据仓库的价值 数据仓库的源数据类型 数据仓库的基本架构 数据仓库的多维数据模型 数据立方体与OLA...

网友评论

      本文标题:数据仓库的学习

      本文链接:https://www.haomeiwen.com/subject/dfobgctx.html