//本系列是基于DMBOK2的学习过程中的知识点整理,方便学习与回顾//
数据仓库是企业数据管理的核心,通过与BI的组合可以为业务运营提供洞察,支持企业决策。 数据仓库与商务智能的定义是“通过规划、实施和控制过程,来提供决策支持数据,支持从事报告、查询和分析的团队”
一、基础知识
1.1 目标
1)支持商务智能活动
2)赋能商业分析和高效决策
3)基于数据洞察寻找创新方法
1.2 指导原则
1)聚焦业务目标
2)以终为始
3)全局性的思考和设计
4)总结并持续优化
5)提升透明度和自助服务
6)与数据仓库一起建立元数据
7)协同
8)不要千篇一律
1.3 名词解释
1)BI-商务智能:一种理解组织诉求并寻找机会的数据分析活动,以及支持这类活动的技术集合
2)数据仓库:一个集成的决策支持数据库,以及支持与之相关的数据操作的软件程序
二、人员
2.1 组织与文化
始终保持一致的业务重点是项目成功的关键,所以DW/BI项目要做一致性评估并获得所需的业务支持。
三、数据仓库技术
3.1 数据仓库建设方法
1. 数据仓库的核心理念
1)数据仓库存储的数据来自于其他系统
2)存储行为包括以提升数据价值的方式整合数据
3)数据仓库便于数据被访问和分析使用
4)组织建设数据仓库,因为他们需要让利益相关方访问到可靠和集成的数据
5)数据仓库数据建设的目的覆盖工作流支持、运营管理和预测分析
2. 建设模式 - Bill Inmon的企业信息工厂
它的特点: 面向主题的、整合的、随时间变化的、包含汇总和明细的、稳定的历史数据集合
3. 建设模式 - Kimball的多维数据仓库
数据仓库的数据存储在多维模型中,它也被称为星型模式,方便使用者理解和使用数据,也支持更有的查询性能。
它包括四个组件: 1-业务源系统; 2-数据暂存区,进行数据的转换; 3-数据展示区域,多个DM通过数据仓库总线获取一致性的维度; 4- 数据访问工具。
3.2 数据仓库数据集成
1. 历史数据一次性载入
1)Inmon建议是所有数据存储在单个数据仓库层中;
2)Kimball建议数据仓库是由多个部门级的数据集市合并而成,DM中保存原子级别的的历史数据,并由一致性维度表和一致性实施表提供企业级数据
3)Data Vault模型将历史数据以规范化的原子形式保存,不做过度的一致性处理,通过中心表/链接表/卫星表来构建数据间的关联
2. 批量数据更新
可用的CDC技术: 时间戳增量加载;日志表增量加载;数据库交易日志;消息增量;全量加载
3. 准实时和实时数据加载
需将新的易变的数据与包含大量非易变历史数据进行隔离,常见方式是通过数据分区,不同分区之间使用联合查询
数据加载方式: 1-涓流式加载(微批); 2-消息传递(目标系统通过订阅方式从消息总线获取实时/准实时更新); 3-流式传送(目标系统使用消息队列收集数据,并按顺序处理)
四、活动
1. 理解需求
1)分析业务目标,确定业务领域并框定范围;2)访谈业务用户,,理解他们的数据需求; 3)界定并记录关键的性能指标和计算口径;4)分类并排序需求
2. 定义和维护数据仓库/BI架构
分别确定技术架构和管理流程
3. 开发数据仓库和数据集市
1)将源映射到目标;2)修正和转换数据;
4. 加载数据仓库
确定加载方法时,要考虑的关键因素是延迟要求、源可用性、批处理窗口、目标数据库的一致性
5. 实施商务智能产品组合
根据组合不同目标用户群体的需求,选择合适的工具
6. 维护数据产品
发布管理; 管理开发生命周期;监控和调优加载过程;监控和调优BI活动的性能
五、工具和方法
5.1 工具
1. 元数据存储库: 包括数据字典和术语,数据血缘关系
2. 数据集成工具:除了数据加载,还需提供过程审计、控制、重启和调度功能
3. 商务智能工具:能支持运营报表,业务绩效管理,和自助分析
5.2 方法
1. 利用Data Profiling做原型设计,降低与非预期数据相关的风险
2. 自助式商务智能
3. 可查询的审计数据
六、治理
6.1 报表策略
1)确保BI产品组合中存在报表策略,包括标准,流程,指南,最佳实践和程序;
2)定期评估标准报表,以确保它们仍然具有价值
3)对数据源进行治理监控
6.2 度量指标
1)使用指标:用户数量
2)主题域覆盖率:识别每个部门对数据仓库的访问程度
3)响应时间和性能
参考资料
DAMA-DMBOK2中文版
网友评论