2020年4月,中央文件将“数据”纳入生产要素,数据成为了与土地、劳动力、资本、技术等传统要素相并列的第5类生产要素,“数字化转型”、“数据治理”“数据资产”等也变得越来越热。虽然各个企业的数据平台/数据应用系统等开始雨后春笋般得构建起来,但相关数据平台是否实现良性运转、是否真正驱动或助力业务发展、是否真正给企业带来了良好的投资回报,相信很多企业无法给出满意的答卷。
阻碍“数据”真实变现的因素很多,“数据质量”是其中一个特别突出的基础性影响因素。相信自己真正负责过数据中台 或 数据运营平台的朋友,都会认同"数据质量问题"是个非常要命的问题。个人理解,这个点也是 数据应用系统 和 常规 IT应用系统的关键差别之一:
- 对于常规的IT应用系统,某个新功能经过 UT(单元测试), SIT(系统集成测试), UAT(用户验收测试)等测试以后,多数问题被发现并一次性解决之后,基本上线后出问题的概率就很小了,在业务用户眼里,“这个IT系统是基本可用的”;
- 但对于数据应用系统,上线准备时完成相关功能测试,只代表功能可用、相关数据在"当时"有用。但真正在上线以后,E2E数据链路的各个环节容易受到各种因素影响,1个环节出问题,数据质量就无法保证,业务用户就会质疑“数据的可用性”,进而质疑“数据平台的可用性”。出上几次问题,业务用户也就不愿意用了。。。了解到有不少企业数据平台,在项目刚结束时的确可用,但过上几个月由于各种要素发生变化又不能及时应对,数据质量无法保障,数据平台就变得少人问津、束之高阁了。
“数据质量”会被很多人提及,但在很多企业里并没有给予充分重视、也不太清楚如何体系性地认识和解决数据质量问题。本文尝试对主流知识体系的数据质量部分进行梳理和比较,并给出一些参考性建议,以期能方便大家快速了解“数据质量”相关知识及应对手段,包含下述3块内容:
一、本文涉及的数据质量相关3套知识体系/书籍-基本介绍
二、分享《华为数据之道》数据质量部分,值得借鉴的4个亮点
三、分享《DAMA-BoK2》方面值得参考的4点补充内容
一、本文涉及的数据质量相关3套知识体系/书籍-基本介绍
为了方便EAGC架构社群的数据架构工作组成员进行学习交流,我们主要围绕2套国内比较主流的知识体系(DAMA BoK2 和 DCMM)以及 基于企业实践总结的《华为数据之道》,进行相关的梳理比较,作为交流探讨的靶子。相对来讲,《华为数据之道》主要是基于华为自身的数据质量实践梳理的,文章相关章节的连贯性较好,便于阅读。另外,基于个人多年的2B数据中台实践来看,《华为数据之道》写得相对更务实一些,可参考性及可操作性相对较强,本文会先以它为主导进行相关亮点的分享,然后再补充其它知识体系的一些内容。
1. 《华为数据之道》数据质量部分,涉及的相关内容
相关的目录及条目,简单梳理成思维导图如下,主要包含3部分内容,详见下图:
1). 基于PDCA的数据质量管理框架;
2). 全面监控企业业务异常数据;
3). 通过“数据质量综合水平”牵引质量提升;
2. 《DAMA-BoK2》数据质量部分,涉及的相关内容
DAMA-BoK(数据管理知识体系指南)无论在国际还是国内,在数据管理领域都是主流知识体系。DAMA-BoK 第2版英文原版于 2017年发布以后,终于在2020年推出了中文版,里面包含了相对完整的数据管理知识体系 (对应的认证体系是 CDMP),建议对数据感兴趣的人士能拥有1本作为参考书。DAMA-BoK2的适用面较广,相关章节内容的主体结构,基本上是统一的。数据质量部分的主要内容如下,详见下图:
1). 引言;
2). 活动;
3). 工具;
4). 方法;
5). 实施指南;
6). 数据质量和数据治理;
(上图中,黄色背景的部分内容,会在下方分享《华为数据之道》的几个亮点以后,进行补充分享。)
3. 《DCMM》数据质量部分,涉及的相关内容
DCMM(数据管理能力成熟度评估模型) 属于国标(GB/T 26073-2018),从2018年10月开始实施。书本相对较薄,40页左右,建议大家了解一下。相关章节内容的主体结构,基本统一。数据质量部分的主要内容如下,详见下图:
1). 数据质量需求;
2). 数据质量检查;
3). 数据质量分析;
4). 数据质量提升;
(上图中,每个部分都会涉及“概述”、“过程描述”、“过程目标”、“能力等级标准”四个部分。黄色背景部分涉及的是能力等级标准,个人认为是一个不错的点,分为5级,每级都给出了一个参考标准,便于各个企业判断自身大体处于什么水平。)
二、分享《华为数据之道》数据质量部分较有参考价值的4个亮点
前面已经提到,这本书是基于企业的实践梳理和总结出来的。个人了解到华为在探索企业数据管理方面不仅受到高层重视,而且真正投入了大量的人力物力,邀请了众多顶尖的咨询公司参与和支持。即使是这样,一路走过来也并不是一帆风顺、一撮而就的。。。在2020年11月左右,《华为数据之道》从华为内部读物,变成一本对外公开发表和分享的书,个人拜读了之后感觉还是挺有受益的。篇幅所限,这里简列了比较值得借鉴的4个亮点,供大家参考。(若想了解更多详细内容,建议仔细翻看原书,JD也提供电子版)
1. 数据质量整体框架
数据质量之所以是个老大难问题,是因为它会受到众多因素影响,某一个环节没有管控或把握到位,数据质量就会出问题。我们需要一个整体性的框架,来确保企业能体系性地应对和解决这个问题。下方的数据质量整体框架,通过3个方面的有机结合,给出了一个整体性解决思路:
1). 领导力;
2). 持续改进(PDCA);
3). 能力保障;
2. 数据质量规则 (场景类型- 质量规则- 数据6性)
从哪些方面来判断数据质量,DAMA BoK2比较全面分享了全球的主要流派:如 Strong-Wang框架(1996, 分4大类15个指标), Thomas-Redman(1996,3大类20多个维度),Larry English (1999, 2大类, 15个特征)以及 DAMA UK白皮书 (2013, 6个核心维度)。个人认为,华为提到的数据6性 主要参考了 2013年由 DAMA UK发布的白皮书。
华为在数据6性的基础上,进一步梳理出15个具体的质量规则类型,并对应上了4个主要场景 (“单列”、“跨列”、“跨行”、“跨表”),一下子明晰了具体的操作思路,值得点赞。为了能更清晰的体现 15个质量规则类型 和 4种场景、6种特性的对应关系,本人在原图的基础上,适当调整了相关规则类型的位置并增加了 规则类型到数据6性的箭头,如下:
(通过添加箭头指向,除了更明确地展示 某个规则类型和数据特性的对应关系,画出来以后也比较容易发现: “一致性”、“有效性”这2个数据特性关联到的质量规则较多,需要重点关注。)
3. 业务对象的数据质量度量
关于数据质量的度量,会涉及一些具体的计算方法。“业务对象”是我们在进行业务分析及数据分析时,一个非常重要的元素。(有兴趣的同学,可在微信公众号搜索“EAGC 4A协同 ”文章,快速了解典型的 4A集成元模型中“业务对象”所处的位置及其与其他元素的关系) 在基于业务对象进行数据质量度量时,个人比较认可书上建议的思路,为了避免某个逻辑实体的严重数据质量问题被掩盖,建议采用“平均值”的思路来统计和度量“业务对象”的数据质量。详见下方截图,给出了具体示例进行对比说明,并添加了备注。
4. 度量质量 (设计质量 + 执行质量)
在很多企业里,在度量数据质量的时候,主要考虑“执行质量”,较少考虑“设计质量”。在《华为数据之道》中,给出了 “设计质量 40% + 执行质量 60%”的思路,个人觉得这是个非常棒的思路。
目前的很多企业,纷纷在进行 数据仓库 / 数据湖 / 数据中台 等等的建设,比较常规的做法都是想办法先把现有的各个应用的数据采集入仓或入湖,实现数据打通,并快速在局部开始数据应用。相信在用了一段时间以后,不少企业会不断发现“上游源系统”的变化及设计质量对数据平台的数据可用性会不断产生影响,很多问题在下游解决会非常费劲,而且有些数据质量问题在下游不一定能解决掉。。。
在DAMA BoK中也强调 “第1次就获取正确数据所投入的成本,远比获取错误数据并修复数据的成本要低”,我们需要尽可能在“源头”确保数据质量,这就需要加强对"设计质量"环节的重视和管控(涉及 资产目录/ 数据模型/ 数据标准/ 数据分布)。
三、分享《DAMA-BoK2》的4点补充内容
相对而言,DAMA BoK的知识体系比较完整,在上方列示了 《华为数据之道》的4个较有参考价值的亮点以后,借助DAMA BoK提供相关补充内容,供大家参考。
1. 数据质量相关概念及应遵循的原则
与数据质量相关,DAMA BoK2 给出了10个基本概念,和10项基本原则,列示如下:
2. 开发和部署数据质量操作
关于如何开发和部署数据质量,DAMA BoK2 给出了 5个操作步骤。尤其在 “测量和监控数据质量”和“制定数据质量服务水平协议”方面,给出了一些具体的计算公式和参考说明。
3. 预防措施 & 纠正措施
与方法有关,DAMA BoK2关于 “预防措施”和“纠正措施”,也给出了一些具体说明,个人认为有一定的指导和参考价值。
4. 数据质量制度
数据质量的提升,离不开数据治理。DAMA-BoK2有个小节专门介绍“数据质量和数据治理”,尤其强调了数据质量工作,需要有匹配的数据治理制度的支持。与此同时,也列出了“数据质量制度”,应该包含的6个方面,参见下图:
本文主要围绕《华为数据之道》、《DAMA BoK2》 和 《DCMM》的数据质量部分,进行了简单梳理和基本介绍,然后分享了《华为数据之道》较值得借鉴的4个亮点,最后利用DAMA-BoK知识体系的完善性,补充分享了4点参考内容。希望通过上面的介绍,能方便大家快速了解“数据质量”相关知识点及可参考的应对手段。大家如有兴趣进一步了解,建议购买相关书籍并抽空学习。
解决数据质量问题,是个复杂的系统性工程,往往需要比较深度的体系性思考以及相关要素的整体协同。有兴趣的同学,可有意识地观察企业中目前存在哪些数据质量相关的问题和隐患,并思考探索如何逐步改善。也欢迎大家关注数据架构, 关注"EAGC 企业架构社群",共同交流学习 !
【附注】- 感谢您阅读此文!
文中部分内容引自其它文献,已注明出处。若出处不准或不便公开,请联系我本人(微信号: ThomasW006),以便相应调整。
欢迎转载或使用,请保留作者信息。个人水平有限, 如有建议和补充想法,欢迎留言交流! 若您觉得本文有些许启发或帮助,欢迎点赞、转发 ^_^
网友评论