Kimball和Inmon是两种主流的数据仓库方法论,分别由 Ralph Kimball 和 Bill Inmon 提出,在实际数据仓库建设中,业界往往会相互借鉴使用两种开发模式。
疑惑
1)事实表、维度表 与 3NF的差异在哪里?事实表、维度表与3NF是分析数据两个不同的维度?
2)数据仓库与数据集市先后问题,是区分 Inmon 和 Kimball 模型的标志么?背后有没有更深层次的内涵?
3)就现在了解的,Inmon 和 Kimball 在模型中的基本操作是类似的,虽然建模的思路是迥异的。Inmon 模型要求对数据进行清洗、抽取实体-关系之后才落入数据仓库,保证数据符合3NF,之后也要根据分析主题,指标维度组合分析;而Kimball 直接根据需要将数据经ETL之后转化为事实表和维度表(理解思路待确认),但事实表和维度表看起来也是符合3NF的。是否意味着两个模型只是处理顺序的不同?或者是Inmon 模型相对于 Kimball 模型,由于多了数据清理和实习-关系,效果会更好?
------------------问题记于2016-08-26-----------------
介绍
Inmon 的模型从流程上看是自顶向下的,即从分散异构的数据源 -> 数据仓库 -> 数据集市。
1)操作型系统的数据和体系外数据需要经过ETL过程,加载到企业数据仓库中
2)企业数据仓库是企业信息化工厂的枢纽,是原子数据的集成仓库,其目的是将附加的数据存储用于各类分析型系统;在数据仓库中会对数据进行清洗,并抽取实体-关系。
3)数据集市是针对不同主题的聚集区域
Inmon 模型
Kimball 的模型是自底向上的,即从数据集市-> 数据仓库 -> 分散异构的数据源。
1)Kimball 的模型的数据源往往是给定的若干个数据库表,数据较为稳定但是数据之间的关联关系比较复杂,需要从这些OLTP中产生的事务型数据结构抽取出分析型数据结构。Kimball 是以最终任务为导向,将数据按照目标拆分出不同的表需求,通过ETL导入数据集市层
2)Kimball模型将分散异构的数据源经ETL转化为事实表和维度表导入数据集市,数据集市由若干个事实表和维度表组成
3)在数据集市将事实表和维度表根据分析主题组合后导入数据仓库中,用于数据分析
Kimball 模型
---------------第一版记录于 2016-08-26--------------------
参考资料:
网友评论