美文网首页大数据,机器学习,人工智能大数据玩转大数据
浅谈数据仓库(DW &BI)(七):事实表技术

浅谈数据仓库(DW &BI)(七):事实表技术

作者: 小杨_1858 | 来源:发表于2019-06-21 09:21 被阅读14次

历史内容:

#42 浅谈数据仓库(DW&BI)(一):数据仓库发展起源及概述

#43 浅谈数据仓库(DW&BI)(二):粒度、存储、3NF、星型模型、雪花模型

#44 浅谈数据仓库(DW&BI)(三):企业数据仓库架构、数据集市简介

#45 浅谈数据仓库(DW&BI)(四):OLAP

#48 浅谈数据仓库(DW&BI)(五):维度建模简介

#52 浅谈数据仓库(DW &BI)(六):一种设想的前端平台

承前所述,今天记录一下事实表相关技术。(其中大多数信息来源于《数据仓库工具箱》一书)。

事实表是数据仓库建模的核心,是业务过程的数字化、模型化体现,应该紧紧围绕现实业务过程和数据应用需求进行设计,以此来表达现实业务。而为表达业务过程,则需要考虑数据所包含的信息是否是充足的、是否是冗余的,因此在数据粒度(数据量)和维度度量(字段)上均应有所取舍。

我们在最终使用事实表的时候最终总是会用到事实表内的度量,尤其是数字度量,方便我们做分组求和、求均值等业务量统计、数据统计等。数字度量可分为3类:可加、半可加、不可加事实。

可加事实:最灵活、最有用,维度下都可以相加,例如销量、人数等。

半可加事实:可以根据一些维度相加,但是不能根据所有维度相加,例如库存数量可以根据地区相加,但是不能根据时间相加进行统计。

不可加事实:完全不可以根据维度相加,一般为比率数据例如结婚率,每个区域的结婚率加起来没有意义,这类事实建议以分子和分母这2个可加事实分别存储。

实际的数据情况可能不太乐观,会存在度量值、维度相关信息未被采集到的情况,需要我们对维度、度量产生的空值进行处理。尤其是维度,建议将未知维度设置为“未知”、“UNKNOWN”,或其他相关内容。度量产生的空值情况,可以适当使用0来做替换。

我有次被问到,事实表有哪几种?一时没答上来。

从存储业务过程的角度来看,可以分为以下几类:

1、事务事实表:事务事实表的一行对应空间或时间上某点的度量事件。原子事务粒度事实表是维度化及可表达的事实表,这类健壮的维度确保对事务数据的最大化分片和分块。

几乎每个真实源系统发生的事件都是一个事务,不论是订单创建、订单交付、订单结束等等事件。事务事实表可以分为单事务事实表和多业务事实表。单业务事实表简单明了,或根据订单号、流水号、实例某类单业务操作的唯一关键信息进行构建,特点易使用、易理解数据内容。而有时当同类型业务过程比较多,且不同业务过程关注的维度和度量又比较相似时,可以考虑将其组装成多事务事实表,比较易于管理吧。

另外,有时候存在父子事实关系,比如一个淘宝订单可能里面有很多商品,里面又细分到各个商户的子订单,对于这类父子事实关系,我认为分开建立事实事实表会比较好,而如果有时父子关系是比较确定的一对一关系时,可能建立单张事务事实表会比较好。

2、周期快照事实表:周期快照事实表中的每行汇总了发生在某一标准周期,如某一天、某周、某月的多个度量事件。粒度是周期性的,而不是个体的事务。周期快照事实表通常包含许多事实。

看似拗口的定义,其实很简单,周期快照事实表不记录原子级具体事务,存储的其实是时间+度量事实(包含维度)的信息,其实就是将聚合后的数据按周期放到表内。相比事务事实表是稀疏的,周期快照表是稠密的,不论是否存在量,都会被记录(记为0)。模型表数据一般是增量新增。

3、累计快照事实表:累计快照事实表的行汇总了发生在过程开始和结束之间可预测步骤内的度量事件。

累计快照事实表是处理长流程、管道、工作流这类有不同状态、多时间节点业务过程的极好模型。通常,我们收集流程的各个标准节点,当业务发生时会插入一行,后续其他过程发生或变化时,对累计事实表进行修改,且各个时间节点均应该包含日期外键。

除了常见的记录有度量事实的,或是业务流程的事实表外,其实也有无事实的事实表,仅仅记录某一时刻的多维实体,例如某一天的课程表这样实际有记录事件发生的数据,又如记录不同营销活动参与条件的活动资格表。

此外,由于原子层的事实表数据量较大,具体BI应用时的查询性能较差,可能会单独根据原子层事实表建立中间汇聚事实表,提前进行简单的数字化上卷。

事实表的基础知识介绍到此为止,因为事实表的重要性,在建设前期应做好业务过程选择、粒度申明、维度度量确认等内容,而整个仓库在建设中也应该采取一致性原则,保证字段名、字段类型、字段含义等统一,减少后续的维护管理成本。


沉默是金 话唠是银

长按识别二维码关注

或搜索ID "im-wudi" 添加关注

相关文章

网友评论

    本文标题:浅谈数据仓库(DW &BI)(七):事实表技术

    本文链接:https://www.haomeiwen.com/subject/ewcafctx.html