//本系列是基于DMBOK2的学习过程中的知识点整理,方便学习与回顾//
元数据对数据管理和数据使用来说都是必不可少的,元数据管理指的是“通过计划、实施和控制活动确保访问到高质量、整合的元数据”。
一、基础知识
1.1 目标
1)记录和管理与数据相关的业务术语的知识体系,以确保人们理解和使用数据内容的一致性;
2)收集和整合来自不同来源的元数据,以确保人们了解不同部门数据之间的相似性和差异;
3)确保元数据的质量、一致性、及时性和安全;
4)提供标准途径,使元数据使用者可以访问元数据;
5)推广或强制使用技术元数据标准,以实现数据交换
1.2 名词解释
1. 元数据
用于描述数据本身,数据表示的概念,以及数据与概念之间的关系的数据。它又分为三种类型
1)业务元数据:关注数据的内容与条件,例如表/字段的定义与描述,业务规则,数据模型,数据质量规则等
2)技术元数据:提供数据的技术细节、存储数据的系统以及系统之间的数据流转过程。比如:表名,字段名,字段属性,访问权限,备份规则等。
3)操作元数据:描述了处理和访问数据的细节。比如:作业执行日志,审计结果,错误日志,清晰标准,技术人员的角色和职责等。
ISO 11179定义了元数据注册的框架。
2. 业务术语表-Business Glossary
记录和存储组织的业务概念、术语、定义以及这些术语之间的关系
业务术语表要包括:术语名称及定义,术语的分类,支持定义的算法,术语的维护人员,支持该术语的官方数据来源等
业务术语表用于满足 业务用户、数据管理专员、技术用户的需求
二、人员
三、技术
3.1 元数据的来源
应用程序中的元数据存储; 业务术语表;BI工具;配置管理工具(CMDB);数据字典;数据集成工具;数据库管理和系统目录;数据映射管理工具;数据质量工具;字典和目录;事件消息工具;建模工具和存储库;参考数据库;服务注册,其他元数据存储。
3.2 元数据架构
元数据架构要覆盖的内容:元数据创建和采集;元数据存储;元数据集成;元数据交付;元数据使用;元数据控制和管理
架构类型
1)集中式元数据架构:单一元数据存储库,需要将元数据源头的更改快速同步到存储库
2)分布式元数据架构:没有持久化的存储库,使用单一的接入点,再将建设发到对应的各个数据源中
3)混合式:集中式存储库中只保存用户添加的元数据,重要的标准化元数据以及通过手工来源添加的元数据。其他元数据仍然在源系统中。
4)双向元数据架构:允许元数据在任何地方修改,然后将变更从存储库同步到原始系统
3.3 元数据缺失的风险
1)因为不正确、不完整和不合理假设导致的错误判断
2)暴露敏感数据,导致客户/员工/企业的风险
3)了解数据的领域专家离开后,知识也随之被带走
四、活动
4.1 定义元数据战略
元数据战略是实现有效数据治理的第一步
1)启动元数据战略计划
2)组织关键利益相关方的访谈
3)评估现有的元数据资源和信息架构
4)开发未来的元数据架构
5)制定分阶段的实施计划
4.2 理解元数据需求
包括:更新频率,同步情况,历史信息,访问权限,存储结构,集成要求,运维要求,管理要求,质量要求,安全要求
4.3 定义元数据架构
受控的元数据环境,应该为最终用户屏蔽元数据的多样性和差异性
1)创建元模型 - 元数据存储库的数据模型
2)应用元数据标准
3)管理元数据存储, 包括控制活动,质量控制活动,元数据管理活动和培训活动
4.4 创建和维护元数据
元数据管理的几个原则: 责任,标准,改进
1)整合元数据:利用专用接口或半专用接口(先扫描输出,再加载)收集和整合元数据
2)分发和传递元数据:通过元数据网站、报告、术语表、DW/BI工具、建模工具、消息传送、API等将元数据传递给消费者
4.5 查询、报告和分析元数据
五、工具与方法
5.1 工具
元数据存储库 + 元数据管理工具
5.2 方法
1)数据血缘与影响分析。 数据血缘要兼顾业务焦点(根据业务优先级寻找数据元的血缘关系)和技术焦点(从源系统开始寻找使用者)
2)应用于大数据采集的元数据
六、治理
6.1 管理措施
过程控制 + 元数据解决方案的文档 + 元数据标准和指南
6.2 度量指标
1)元数据存储库的完整性
2)元数据管理成熟度
3)专职人员配置情况
4)元数据使用情况
5)业务术语活动
6)主数据服务数据遵从性
7)元数据文档质量
8)元数据存储库可用性
参考资料
DAMA-DMBOK2中文版
网友评论