1. 建设路径
通常认为,数据治理是围绕数据资产展开的一系列工作,以服务组织各层决策为目标,是数据管理技术、过程、标准和政策的集合。进行数据治理,会降低计算成本,沟通成本,人力成本....数据治理要在成本,效率,质量这三个之间建立一个稳定的规则支架,数据治理任重道远.
- 成本:要计算统计资源消耗过多的任务分析原因改进流程(计算),完善数据的生命周期管理,治理低价值数据,长期无访问数据,长生命周期数据(存储)
- 质量,一是对业务数据进行治理,厘清业务数据资产,定义数据对象关系,识别来龙去脉(本文不写,很难做的).二是建立一套数据质量,数据安全,数据测试,数据日常监控的服务等
- 效率,要建立一套合理的数据流通审批流程.建立一种数据集市服务,让数据开发人员能够找到想要的数据内容,同时开发人员也可以维护自己生产的数据到这种数据集市中,促进促进数据流转.
2. 治理流程
- 元数据治理
元数据治理
数据中台(元数据篇)
利用形如,表的元数据,字段的元数据,调度元数据,ETL元数据,日志,数据字段等元数据资源对成本,数据质量进行治理,统计分析
- 专项治理
例如是临时表治理,大部分公司存在临时表乱用的情况,例如是临时表在正式库使用,临时表用后不删除,临时表命名[临时表专项]
例如是通过采集CPU资源的消耗对ETL调度任务成本分析,Adhoc查询采集,专项code review(对责任人的ETL任务进行分析,给出解决方案规定时间内整改,例如是多表合并,数据倾斜,分桶优化,合并小文件,map端jion,优化reduce数量等方案)[成本治理专项] - 表的生命周期治理
完善表的元数据信息,例如是一级二级主题分类,表命名,是否配置DQC,操作历史,调度是否失败,血缘,表重要等级,表调度的时间基线,计算存储成本,表信息是否完整,表标签等
网友评论