1 为什么需要数据治理?
-
通过数据治理实现企业数据的标准化、提高数据质量、提升业务处理的效率,为数据分析提供准确的数据支撑,赋能业务,助力企业实现数字化转型。
大数据的数据管理
2 数据治理的本质
- 数据要产生价值,需要一个合理的“业务目标”,数据治理的所有活动应该围绕真实的业务目标而开展,建立数据标准、提升数据质量只是手段,而不是目标。因此数据治理的第一步不是分析数据问题,而是分析业务问题,找到企业的核心业务诉求,定义数据治理的目标和范围。
3 数据治理架构
DAMA-DMBOK2.0 数据管理车轮图- 在DAMA 数据管理知识体系指南中,数据治理位于数据管理“车轮图”的正中央,是数据架构、数据建模、数据存储、数据安全、数据质量、元数据管理、主数据管理等10大数据管理领域的总纲,为各项数据管理活动提供总体指导策略。
4 数据治理的数据管理 - 元数据
- 元数据分类 支持对元数据进行分类管理,例如个人信息,敏感信息等
- 元数据检索 可按照元数据类型、元数据分类进行检索,支持全文检索
- 血缘依赖 支持表到表和字段到字段之间的血缘依赖,便于进行问题回溯和影响分析等
- Apache Atlas为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并为数据分析师和数据治理团队,提供围绕这些数据资产的协作功能。
4.1 Atlas架构
Atlas架构4.2 元数据分析
血缘依赖- 影响分析
元数据影响性分析指的是评估数据变更对数据应用的影响。影响性分析能帮助用户迅速了解分析当前元数据对象的下游数据信息,快速识别元数据的价值,掌握元数据变更可能造成的影响,以便更有效的评估变化带来的风险。 - 血缘分析:
血缘分析是建立在元数据整合的基础上,记录数据治理过程中的血缘关系,基于这些血缘关系信息,可以进行以数据流向为主线的血缘追溯功能,可以一直追溯到数据的产生。 - 血缘分析的输出结果包括回溯过程中所找到的所有相关元数据对象,以及这些元数据对象之间的关系。这些元数据对象可能是指标、接口文件、报表、数据库表、数据库视图、数据立方体实体、数据处理过程和数据源接口等。
- 数据资产地图
大数据平台内的元数据种类繁多、形式各异,元数据查询、血缘分析、影响性分析等功能,是面向元数据细节信息的使用需求,更适用于具体的人员,各部门基于元数据开展相关工作,对于领导、管理人员等高层用户,由于关注层次更高,范围更广泛,大量的细节信息不能有效的满足该类用户的需要。
4.3 元数据分类管理
元数据分类与检索- 元数据查询
自助式元数据查询为用户提供直观简洁的界面,用户根据自定义搜索条件,查询符合该用户访问权限的所有元数据信息,以列表的形式展现出来,支持模糊查询 - 元数据统计
用于统计各类元数据的数量,如各部门提供的各类数据的种类,各部门数据被使用的冷、热度等,方便用户掌握大数据平台中元数据的汇总信息。元数据统计的展现方式有报表,图形等直观的方式。 - 元数据版本管理
元数据版本管理用于管理元数据的版本发布,以及基于版本的元数据查看、比对等操作,通过版本管理功能,用户可以更清晰了解元数据的版本变更历史,掌握元数据生命周期,提升了后续使用元数据的可靠性。 - 元数据变更管理
主要是在线对元数据进行变更,如对属性值进行修改,对变更历史和变更明细进行查询,对变更前后进行差异比对。
网友评论