数据治理,作为企业数据管理的一部分,治理程度,直接影响企业数据资产业务价值的实现
一个企业的数据治理应该以数据质量为核心、数据标准为基础、数据治理机制为支撑;
何为数据治理,简而言之,“数据”的“治”与“理”。“治”为整治,关注数据质量,保障数据稳定性、准确性,合理控制数据生命周期,降低成本;“理”为梳理和管理,数据的基本信息、状态、关联关系等,搞清数据从哪来到哪去到何处等。
从中剖析,一个数据治理架构,从it设计角度,应该
1、数据质量管理模块、
2、数据生命周期模块、
3、元数据管理模块(数据血缘)、
4、数据安全模块、
5、数据架构管理模块
6、数据标准管理模块(以上的基础为数据标准,也是最重要的)
其中各个模块详细设计如下
一、数据质量管理
对所存储数据的规范性、准确性、一致性、完整性、时效性进行持续监控和评估;其管理的关键内容对具体的数据元素指定的若干数据质量检核规则。并且数据质量的整改需要有一个强有效的组织架构,需要把业务/技术都圈进去,要让业务知道数据治理的重要性,要让技术明白数据治理的必要性;
开源组件已有Apache Griffin、微众的Qualities,其大致实现就是提供了集成化的数据校验规则,匹配各个数据接口,可定时调度形成报表数据。
二、数据生命周期管理模块
我们应该知道我们存储的数据,有没有人使用,进而将我们的数据进行分类,进而可以对我们的数据进行一个重要性分级。
可以通过调度任务sql进行分析,确定数据冷热区,对于一定时期冷冻的数据进行压缩归档。
三、元数据管理
数据字典是基础, 定义并管理这些数据元素的业务描述、技术属性以及业务数据口径、加工路径等内容,促进及时、准确的了解数据含义及血缘关系。其在指标梳理、数据流向管理中有很大的用处(例如上游系统发生了字段含义变更,可以快速在数据血缘上进行确认影响范围)
开源的组件有atlas
四、数据安全管理
对数据设定安全等级,保证其被适当地使用;
开源的组件有ranger、sentry。都可以做到颗粒级权限控制;
五、数据架构管理模块
从我个人而言,一个好的数据架构应该保证全行级数据流向的合理性,统一性,数据流向乱了,数据质量肯定乱,还谈什么数据治理,先把数据架构捋清楚。
六、数据标准管理模块
应该建设一个平台,对进入数据平台的所有任务进行校验,或者,有一个平台,自动生成ETL任务。阿里oneData,执行标准统一发布。
数据治理,治理谁,作为数据资产管理的一部分,数据治理应该和数据标准管理、数据质量管理、元数据管理、数据安全管理一起协同。数据标准为基础,通过各个数据监测渠道获得数据质量指标,去真正推动治理,才是最难的。
网友评论