数据仓库-高级维度表技术-读书笔记六

作者: 数据僧 | 来源:发表于2018-08-25 19:10 被阅读99次

高级维度技术

维度表连接
维度表可以包含到其他维度表的引用。虽然可以使用支架表实现。某些情况下存在于基本维度上的指向支架维度的外键的存在导致基本维度爆炸性增长。

支架方式维度表连接

比较的做法是将支架表的外键放入事实表中,而不是放置在基本维度中。

更合理的做法

多值维度与桥接表
多值维度和桥接表如何和事实表关联?
例如:某个病人接受了一次体检,可能出现多个诊断。在此种情况下,多值维度必须通过一组维度键通过桥接表使一组中的每个诊断于事实表一行关联。

随时间变化的多值桥接表
1,需要基于SCD2维度。
2,必须包含有效期和截止日期/时间戳
3,请求的应用必须约束桥接表,使其满足特定时刻以产生一致的快照表

标签的时间序列行为
例如:数据挖掘客户聚类分析通常产生文本化的行为标签,通常可以用作区分周期。在此情况下,跨时间范围的客户行为度量成为由这些行为标签构成的一种序列,该序列应该以位置属性存储在客户维度中。 行为标签在位置设计时建立,因为行为标签是复杂并发查询而不是数字计算的目标。

行为研究分组
例如:复杂客户行为分析的结果,通过研究分组获取。仅仅包含客户的持久键。在查询时候通过约束研究分组表的列与目标模式中客户维度的持久键,该静态表可以当成一种可以应用与任何带有客户维度的维度模式过滤器。

聚集事实作为维度属性
1,维度属性表示聚集性能度量将增加ETL处理的负担,但是可以方便BI应用层的分析功能
2,商业用户通常对于聚集性能度量的客户维度感兴趣

动态值范围
动态值范围报表由一系列报表头组成,这些报表头为目标数字化事实定义了范围不断变化的集合。

动态值表头
可以通过大于连接或者小于连接与事实表实现连接,定义可以仅存在于SQL CASE语句中。因为CASE语句方法包含针对几乎所有事实表的无约束关系扫描

文本注释维度
注释维度对应事实表的一个外键

多时区
1,获得通用标准时间以及本地时间,在受影响的事实表中设置双外键

度量类型维度
1,当事实表每一行包含一长列稀疏存储的事实时候,可以建立度量类型的维度,通过度量类型维度将事实表行变成单一通用事实
2,一般不推荐采用该方法。虽然消除了事实表中的空值,但是增加了事实表大小,使内部列的计算更加困难
3,当潜在的事实数量达到极限(几百个),但是没有多少需要应用到任何给定的事实表行时候,可以采用此技术

步骤维度
1,通常在事务事实表中用不同行,表示过程的每一步
2,使用步骤维度展示当前步骤的步骤号,以及完成该会话需要多少步骤

热交换维度
1,当同一个事实表与相同的维度的不同拷贝交替搭配时候,可以使用热交换维度。
2,其实就是事实和维度的切换。例如:某事实表包含股票行情,可以同时展示给不同的投资人,投资人是维度,股票行情为事实。不同的投资人对不同的股票由不同的属性要求,此时投资人是事实,股票行情为维度

抽象通用维度
数据抽象可以适当用于操作型源系统或者ETL处理,但对查询性能有负面影响,并会对维度模型易读性带来负面影响。
维度建模是尽量避免使用抽象通用维度,每种类型关联属性通常存在差异。例如:省市,地区,应将他们唯一标识以区分商店所在省市,地区。客户所在省市,地区。

审计维度
1,简单的审计维度包含一个或者多个数据质量的基本标识
2,使用审计维度属性可以包含描述建立事实行或者ETL执行时间戳的ETL代码版本环境变量。

最后产生的维度
有时来自操作型业务过程的事实在关联维度内容前以分钟,小时,天或者周产生。例如实时环境下,订单消耗行可能会到来,显示客户提交购买特定商品自然键,此时在实时ETL系统中,改行必须提交到BI层,即使客户或者产品还不能确定下来。此时需要建立特殊维度行。这行维度行必须使用通用未知值,当这些维度内容最后获得时候,占位维度用SCD1重写。当采用SCD2处理时候,最后到达的维度数据也会产生。

特殊目的模式

下列设计模式用于特定的用例

异构产品的超类与子类模式
当存在大量的不兼容事实和属性的时候,解决方案是建立单一的超类事实表,该事实表遍历所有同类型的事实。超类或者子类事实表被称为核心或自定义事实表

实时事实表
实时事实表比传统的夜间批处理过程更频繁的被更新。
需要考虑最后部署到BI报表层的DBMS或者OLAP多维数据库的能力。例如:“热分区”可以定义一个事实表占用专用物理内存,不用在该分区建立聚集和索引,其他表可能支持延迟更新。

错误事件模式
数据仓库中数据质量管理系统需一个综合性系统,当数据质量系统检测到错误时候,该事件被标记在特殊维度模式中,该维度只能被ETL后段处理系统处理


历史文章

数据仓库-概述-读书笔记一
数据仓库-DW/BI架构对比-读书笔记二
数据仓库-事实表/维度表技术-读书笔记三
维度处理-数据仓库-读书笔记(四)
数据仓库-高级事实表技术-读书笔记五


参考资料

数据仓库工具箱


如果您觉得我用心了,觉得您有所收获,麻烦关注下我吧,您的关注就是我的动力,因为我不是一个人在前行。

数据僧微信公众号

相关文章

  • 数据仓库-高级维度表技术-读书笔记六

    高级维度技术 维度表连接维度表可以包含到其他维度表的引用。虽然可以使用支架表实现。某些情况下存在于基本维度上的指向...

  • Dimension table & Fact Table

    Dimension table 维度表是数据仓库星型模式中的一张表。数据仓库是使用由事实和维度表组成的维度数据模型...

  • 数据仓库设计

    数据仓库--事实表 数据仓库--事实表和维度表 DW数据仓库分层模型设计 如何优雅地设计数据分层 ODS DW D...

  • 数仓设计标准

    1.编码命名规范 表命名(根据数据仓库的层级架构确定不同的命名):(1)维度层:说明:定义数据仓库公用的维度表,例...

  • 维度退化

    什么是维度退化? 将维度退化到事实表中,减少事实表和维度表的关联 在维度建模的数据仓库中,有一种维度叫Degene...

  • 大数据分析基础——维度模型

    1基本概念 维度模型的概念出自于数据仓库领域,是数据仓库建设中的一种数据建模方法。维度模型主要由事实表和维度表这两...

  • 数据仓库-事实表/维度表技术-读书笔记三

    事实表技术简述 事实表结构1,总是包含外键,且外键不能唯空。2,事实表的设计完全依赖业务活动,不受最终报表的影响。...

  • 数据仓库中的缓慢变化维度(SCD)小结

    顾名思义,缓慢变化维度(slowly changing dimension, SCD)就是数据仓库维度表中,那些随...

  • 数据仓库-高级事实表技术-读书笔记五

    事实表代理键1,可以用作所有维度表的主键2,单列代理事实键,不与任何维度关联的事实表代理键作用一:作为事实表的唯一...

  • 数仓--DW--Hadoop数仓实践Case-08-退化维度

    退化维度概述 退化维度,该技术减少维度的数量, 简化维度数据仓库模式。 简单的模式比复杂的更容易理解, 也有更好的...

网友评论

    本文标题:数据仓库-高级维度表技术-读书笔记六

    本文链接:https://www.haomeiwen.com/subject/opuviftx.html