美文网首页
DG知识点整理-数据仓库与BI

DG知识点整理-数据仓库与BI

作者: 遥望潇湘 | 来源:发表于2023-02-21 16:43 被阅读0次

//本系列是基于DMBOK2的学习过程中的知识点整理,方便学习与回顾//

数据仓库是企业数据管理的核心,通过与BI的组合可以为业务运营提供洞察,支持企业决策。 数据仓库与商务智能的定义是“通过规划、实施和控制过程,来提供决策支持数据,支持从事报告、查询和分析的团队”

一、基础知识

1.1 目标

    1)支持商务智能活动

    2)赋能商业分析和高效决策

    3)基于数据洞察寻找创新方法

1.2 指导原则

    1)聚焦业务目标

    2)以终为始

    3)全局性的思考和设计

    4)总结并持续优化

    5)提升透明度和自助服务

    6)与数据仓库一起建立元数据

    7)协同

    8)不要千篇一律

1.3 名词解释

    1)BI-商务智能:一种理解组织诉求并寻找机会的数据分析活动,以及支持这类活动的技术集合

    2)数据仓库:一个集成的决策支持数据库,以及支持与之相关的数据操作的软件程序


二、人员

    2.1 组织与文化

          始终保持一致的业务重点是项目成功的关键,所以DW/BI项目要做一致性评估并获得所需的业务支持。


三、数据仓库技术

    3.1 数据仓库建设方法

           1. 数据仓库的核心理念

                    1)数据仓库存储的数据来自于其他系统

                    2)存储行为包括以提升数据价值的方式整合数据

                    3)数据仓库便于数据被访问和分析使用

                    4)组织建设数据仓库,因为他们需要让利益相关方访问到可靠和集成的数据

                    5)数据仓库数据建设的目的覆盖工作流支持、运营管理和预测分析

            2. 建设模式 - Bill Inmon的企业信息工厂

                    它的特点: 面向主题的、整合的、随时间变化的、包含汇总和明细的、稳定的历史数据集合

            3. 建设模式 - Kimball的多维数据仓库

                    数据仓库的数据存储在多维模型中,它也被称为星型模式,方便使用者理解和使用数据,也支持更有的查询性能。

                    它包括四个组件: 1-业务源系统; 2-数据暂存区,进行数据的转换; 3-数据展示区域,多个DM通过数据仓库总线获取一致性的维度; 4- 数据访问工具。

       3.2 数据仓库数据集成

                1. 历史数据一次性载入

                    1)Inmon建议是所有数据存储在单个数据仓库层中;

                    2)Kimball建议数据仓库是由多个部门级的数据集市合并而成,DM中保存原子级别的的历史数据,并由一致性维度表和一致性实施表提供企业级数据

                    3)Data Vault模型将历史数据以规范化的原子形式保存,不做过度的一致性处理,通过中心表/链接表/卫星表来构建数据间的关联

                2. 批量数据更新

                    可用的CDC技术: 时间戳增量加载;日志表增量加载;数据库交易日志;消息增量;全量加载

                3. 准实时和实时数据加载

                    需将新的易变的数据与包含大量非易变历史数据进行隔离,常见方式是通过数据分区,不同分区之间使用联合查询

                     数据加载方式: 1-涓流式加载(微批); 2-消息传递(目标系统通过订阅方式从消息总线获取实时/准实时更新); 3-流式传送(目标系统使用消息队列收集数据,并按顺序处理)

 四、活动

        1. 理解需求

             1)分析业务目标,确定业务领域并框定范围;2)访谈业务用户,,理解他们的数据需求; 3)界定并记录关键的性能指标和计算口径;4)分类并排序需求

        2. 定义和维护数据仓库/BI架构

            分别确定技术架构和管理流程

        3. 开发数据仓库和数据集市

            1)将源映射到目标;2)修正和转换数据;

        4. 加载数据仓库

            确定加载方法时,要考虑的关键因素是延迟要求、源可用性、批处理窗口、目标数据库的一致性

        5. 实施商务智能产品组合

            根据组合不同目标用户群体的需求,选择合适的工具

        6. 维护数据产品

            发布管理; 管理开发生命周期;监控和调优加载过程;监控和调优BI活动的性能

五、工具和方法

    5.1 工具

        1. 元数据存储库: 包括数据字典和术语,数据血缘关系

        2. 数据集成工具:除了数据加载,还需提供过程审计、控制、重启和调度功能

        3. 商务智能工具:能支持运营报表,业务绩效管理,和自助分析

    5.2 方法

        1. 利用Data Profiling做原型设计,降低与非预期数据相关的风险

        2. 自助式商务智能

        3. 可查询的审计数据

六、治理

    6.1 报表策略

        1)确保BI产品组合中存在报表策略,包括标准,流程,指南,最佳实践和程序;

        2)定期评估标准报表,以确保它们仍然具有价值

        3)对数据源进行治理监控

    6.2 度量指标

        1)使用指标:用户数量

        2)主题域覆盖率:识别每个部门对数据仓库的访问程度

        3)响应时间和性能 


参考资料

DAMA-DMBOK2中文版

相关文章

网友评论

      本文标题:DG知识点整理-数据仓库与BI

      本文链接:https://www.haomeiwen.com/subject/orznkdtx.html