我忘记是在哪里看到,还是自以为的,反正目前我依然是这么想的:
广义数据仓库的建设包含很多的解决方案,其中就包含数据治理,数据治理也是贯穿整个项目始终的,是一件长久的事情。
现在很多人都把数据仓库简单的理解成数据建模了。
数据治理包含很多的事情,我也没做过,所以在网上找些资料分享下。
为什么要做数据治理
随着数据量越来越大,数据成为一种资产,我们需要更好地管理这些数据,更好地体现数据的价值,这就需要数据治理。
其实在搭建数据平台的时候,我们遇到的一系列问题都可以通过数据治理来解决:
- 数据质量越来越差,问题发现严重滞后
- 缺少数据标准,各个部门标准不统一
- 数据变更对下游的影响不清晰,无法确认影响范围
什么是数据治理
数据治理(Data Governance),是一套持续改善管理机制,通常包括了数据架构组织、数据模型、政策及体系制定、技术工具、数据标准、数据质量、影响度分析、作业流程、监督及考核流程等内容。
简单来说就是有很多流程和标准,像“元数据管理”、“主数据管理”、“数据质量”都包含其中。
通过数据治理来解决我们使用数据的过程中遇到的问题。
- 数据标准
各种各样的规范:命名规范,数据定义,数据类型,前面我有说过这个问题,这里提到了“词素”这个概念,我前面管它叫词根了,说说数仓(6)-关于命名规范
标准规范这东西,好是好,不过冷不丁一看还是头大,先整理这些,后面缓过来继续。
可以参考IBM的文章:大数据治理系列
-- 未完待续
网友评论