美文网首页
数据治理

数据治理

作者: 洲洲洲xxx | 来源:发表于2020-10-22 13:07 被阅读0次

    为什么需要:

    野蛮式增长背后都是烟囱式的数据建设,随之而来,数据存储,数据模型建设(数据冗余,数据孤岛问题非常多),数据质量,使用规范上都会出现一些问题。业务对数据提出了准确性、及时性等要求。

    目标:

    - 一是控制数据使用成本,主要是计算资源问题,模型冗余问题

    - 二是提升查询效率和解决问题效率,包括模型不稳定,标准性差问题,优化数据管理方案

    规范数据建设,指标建设,保障数据建模统一性,统一标准 。

    - 三是保障数据质量,主要是数据不一致,问题故障频发出现。

    - 四是数据安全

    方法:

    (1)元数据管理

    元数据从数据的角度可以分为三类:业务元数据、技术元数据和管理元数据。

    业务元数据是从业务的视角去描述数据,让不懂数据的人可以快速读懂数据,例如:表名称、表的血缘关系、表的字段说明、指标的统计口径等多种业务描述;

    技术元数据自然就是从技术的角度去描述数据,例如:表的sql、字段长度、字段类型等多种技术描述;

    管理元数据是包含数据管理的信息在里面,例如:表的业务属主、表的技术负责人。

    元数据的管理通常包含:血缘分析、数据生命周期。

            血缘分析:对元数据的上下游进行分析,我的公司按照数据存储的数据库将血缘分析分为了两类:

                               存在Hadoop平台的血缘分析,可用通过脚本解析出到字段级的上下游关系;

                                建表有主外键的,可通过主外键建立血缘关系。

            - 废弃模型:⽆无下游,且模型⽆无在线作业或作业⽆无调度

            数据生命周期:数据都存在生命周期,当元数据访问量变低,数据价值不存在的时候,可将它下线清除,释放存储空间。

    (2)数据模型治理

    分库分表,数据字典、核心指标文档的维护

    有ods无dwd,包括之前的dwd表重构(ods中间层删除)

    报表模型相似性治理(上下链路重合度大,字段来⾃自于相同上游字段的⽐比重较⼤ ,)

    日/近30天/近90天 访问量/ 访问人数(pv、uv)、低热度:近120天内⽆无热度,180天以上⽇日均热度等

    数据链路的梳理,能够与现有系统保持一致和融合,避免产生信息孤岛,或者带来重复不必要的数据集成、数据转换。

    数据一致性

    (3)数据质量管理

    数据质量的提升通常包含以下几个方面:

    1)数据质量评估,提供数据质量评估能力,如数据一致性、完整性、正确性、合规性、及时性等,对数据进行全面检查;

    2)数据质量检查,提供可配置化的检查规则,通过脚本定时调度执行;

    3)数据质量监控,提供报警规则,根据配置检查规则的阀值,对超出阀值的进行不同程级的告警和通知;

    4)问题处理机制,对数据问题按照流程进行处理,规范问题处理机制和步骤,强化问题认证,提高数据质量;

    5)根据血缘关系和业务场景锁定高价值数据,进行高安全级别管控,避免数据出错。

    起夜率 

    (4)数据安全

    字段脱敏,数据表权限管理,数据按安全级别分级管理和授权,数据权限工具建设和授权流程制定(安全检查)等

    相关文章

      网友评论

          本文标题:数据治理

          本文链接:https://www.haomeiwen.com/subject/ypdumktx.html