美文网首页离线大数据
第八章 维度设计职维度整合与拆分

第八章 维度设计职维度整合与拆分

作者: 被爱的天青色 | 来源:发表于2019-02-18 22:27 被阅读23次


1)集成是数据仓库的重要特性,需要把面型应用的数据转换为面向主题的数据仓库数据

2)应用之间数据差异集中表现在:

① 编码、命名习惯、度量单位上的差异

② 各种应用采用不同的物理实现,同一个应用有时会把数据拆分到不同数据库中(mysql,hbase),或者同一个业务的数据拆分到不同的表中(主表,扩展表)

3)面对应用数据的差异,除了统一命名规范、统一字段等公共处理外,还需要进行业务分析,将业务关系大、对源系统影响差异小的表进行整合;将业务关系小、对源系统影响差异大的表进行拆分。


维度整合

整合的方式主要采用主从表设计:将多个表中的公共字段放在主表中,从属信息分别放在从表中。主表的主键使用源主键和表标志作为复合主键。以上是对于维度的整合,而具体到表整合分为:

① 垂直整合,不同的数据源包含相同数据集,如,A业务会员表,B业务会员表,都属于会员信息应精良这和在会员维度,丰富维度属性

② 水平整合,不同的数据源包含不同数据集:

+ 判断数据集是否交叉,是则去重

+ 判断自然键是否冲突,是则加工成复合主键,否则直接用数据集的主键作为整合表的主键

+ 在物理实现时将来源字段作为分区字段


维度拆分

在整合数据时遇到以下场景进行维度拆分才是明智之举:

1)水平拆分:

① 维度属性随类型变化会发生很大变化时,没有必要把所有属性整合在一张表中,而用主维度保存公共数据,保证核心维度的稳定性,同时建立多个子维度,保证扩展性

② 两个业务相关性低,整合在一起会对模型的稳定性和易用性产生影响

2)垂直拆分:

考虑到某些维度属性的来源表产出时间早,某些产出晚;某些属性位数使用频率高,某些频率低;某些属性稳定性高,某些经常变化。把产出时间早、使用频率高、稳定性高的属性放在主维度中,把产出时间晚、使用频率低、经常变化的属性放在子维度中



相关文章

  • 第八章 维度设计职维度整合与拆分

    1)集成是数据仓库的重要特性,需要把面型应用的数据转换为面向主题的数据仓库数据 2)应用之间数据差异集中表现在: ...

  • 高并发、高可用系统设计原则

    高并发原则 无状态:应用无状态,配置文件有状态 拆分:系统维度、功能维度、读写维度、AOP维度、模块维度 服务化:...

  • 亿级流量网站架构核心技术读书笔记

    第一章节 概述 高并发的原则 1.无状态2、拆分(系统维度、功能维度、读写维度、AOP维度、模块维度)3、服务化(...

  • shardingjdbc原理分析

    业务场景 垂直拆分: 垂直拆分主要是将系统按照业务的维度将系统进行分库/表,如下图所示:网上购物系统按照业务的维度...

  • 第八章 维度设计之维度设计基础

    基本概念: 1)维度:描述业务的角度、环境 2)属性:描述维度的列,一般用于查询约束、分类汇总 3)事实:即度量 ...

  • 设计原则

    1.1高并发设计原则 无状态 方便水平扩展。一般是应用无状态,配置文件有状态。 拆分 系统维度:根据业务逻辑拆分(...

  • 第八章 维度设计之特殊维度

    递归层次 1)维度的递归层级即在维度分层的一种表现形式,如下: ① 类目维度,细分为叶子类目、三级类目、二级类目、...

  • 第八章 维度设计之维度变化

    维度变化的描述 与事实表变化相比,维度表变化相对缓慢,如何描述维度表的变化,有以下三种方式: 1)重写维度值:这种...

  • 维度与指标

    维度与指标 指标与维度最基本的作用是描述与衡量,维度与指标往往成对出现,搭配使用。 无法衡量它,就无法增长它。维度...

  • Hive维度模型设计

    维度模型设计: 1.选择业务过程 2.声明粒度 3.确认维度 4.确认事实 维度表概述: 维度表是事实表不可或缺的...

网友评论

    本文标题:第八章 维度设计职维度整合与拆分

    本文链接:https://www.haomeiwen.com/subject/ohkzeqtx.html