美文网首页
从技术角度谈数据治理的实现

从技术角度谈数据治理的实现

作者: DengheLiu | 来源:发表于2019-12-15 18:02 被阅读0次

        数据治理,作为企业数据管理的一部分,治理程度,直接影响企业数据资产业务价值的实现

        一个企业的数据治理应该以数据质量为核心、数据标准为基础、数据治理机制为支撑;


        何为数据治理,简而言之,“数据”的“治”与“理”。“治”为整治,关注数据质量,保障数据稳定性、准确性,合理控制数据生命周期,降低成本;“理”为梳理和管理,数据的基本信息、状态、关联关系等,搞清数据从哪来到哪去到何处等。

        从中剖析,一个数据治理架构,从it设计角度,应该

        1、数据质量管理模块、

        2、数据生命周期模块、

        3、元数据管理模块(数据血缘)、

        4、数据安全模块、

        5、数据架构管理模块

        6、数据标准管理模块(以上的基础为数据标准,也是最重要的)

其中各个模块详细设计如下

一、数据质量管理

        对所存储数据的规范性、准确性、一致性、完整性、时效性进行持续监控和评估;其管理的关键内容对具体的数据元素指定的若干数据质量检核规则。并且数据质量的整改需要有一个强有效的组织架构,需要把业务/技术都圈进去,要让业务知道数据治理的重要性,要让技术明白数据治理的必要性;

        开源组件已有Apache Griffin、微众的Qualities,其大致实现就是提供了集成化的数据校验规则,匹配各个数据接口,可定时调度形成报表数据。

二、数据生命周期管理模块

        我们应该知道我们存储的数据,有没有人使用,进而将我们的数据进行分类,进而可以对我们的数据进行一个重要性分级。

        可以通过调度任务sql进行分析,确定数据冷热区,对于一定时期冷冻的数据进行压缩归档。

  三、元数据管理

          数据字典是基础, 定义并管理这些数据元素的业务描述、技术属性以及业务数据口径、加工路径等内容,促进及时、准确的了解数据含义及血缘关系。其在指标梳理、数据流向管理中有很大的用处(例如上游系统发生了字段含义变更,可以快速在数据血缘上进行确认影响范围)

       开源的组件有atlas

四、数据安全管理

       对数据设定安全等级,保证其被适当地使用;

       开源的组件有ranger、sentry。都可以做到颗粒级权限控制;

  五、数据架构管理模块

       从我个人而言,一个好的数据架构应该保证全行级数据流向的合理性,统一性,数据流向乱了,数据质量肯定乱,还谈什么数据治理,先把数据架构捋清楚。

  六、数据标准管理模块

  应该建设一个平台,对进入数据平台的所有任务进行校验,或者,有一个平台,自动生成ETL任务。阿里oneData,执行标准统一发布。


        数据治理,治理谁,作为数据资产管理的一部分,数据治理应该和数据标准管理、数据质量管理、元数据管理、数据安全管理一起协同。数据标准为基础,通过各个数据监测渠道获得数据质量指标,去真正推动治理,才是最难的。

相关文章

网友评论

      本文标题:从技术角度谈数据治理的实现

      本文链接:https://www.haomeiwen.com/subject/ychlnctx.html