美文网首页
DG知识点整理-数据质量

DG知识点整理-数据质量

作者: 遥望潇湘 | 来源:发表于2023-02-22 13:04 被阅读0次

    //本系列是基于DMBOK2的学习过程中的知识点整理,方便学习与回顾//

    数据质量管理是一项持续性工作,它包括项目和维护工作,以及承诺进行沟通和培训。对组织来说,关注如何管理和提高数据质量是贵关键的变革之一,这种持续性的变革需要组织内各级人员的坚定领导和参与。

    一、基础概念

    数据质量管理的定义是“为确保满足数据消费者的需求,应用数据管理技术进行规划,实施和控制管理活动”

        1.1 目标

            数据治理管理应该关注如下目标

            1)根据数据消费者的需求,开发一种受管理的方法,使数据适合要求;

            2)定义数据质量控制的标准和规范,并作为整个数据生命周期的一部分;

            3)定义和实施测量、监控和报告数据质量水平的过程;

            4)通过过程和系统改进,识别提高数据质量的机会

        1.2 原则

            1)重要性 - 关注对企业和客户最重要的数据

            2)全生命周期管理

            3)预防 - 重点放在预防数据错误和降低数据可用性上

            4)根因修正 - 找到根本原因,并对导致发生的流程和系统进行更改

            5)治理 - 通过数据治理活动来支持高质量数据的开发

            6)标准驱动 - 治理需要要以可测量的标准形式来定义

            7)客观测量和透明度-和利益相关方共同讨论和分享测量过程与方法

            8)嵌入业务流程

            9)系统强制执行

            10)与SLA关联

        1.3  数据质量问题的风险

            低质量的数据会给组织带来各类风险:会损害组织的声誉,导致罚款、收入损失、客户流失和负面媒体曝光。

        1.4 名词解释

                1. 数据质量: 它既指高质量数据的相关特征,也指用于衡量或改进数据质量的过程。 数据质量取决于场景和消费者需求,如果数据满足数据消费者应用需求的目的,那就是高质量的。

    二、人员

        2.1 组织文化变革

            1)首先要提高组织对数据作的用和重要性的认识;

            2)需要让员工理解低质量数据的组织成本和数据质量低下的原因;

            3)为员工提供培训和强化训练来确保数据质量

    三、领域知识与技术

        3.1 数据质量的维度

            数据质量维度是指数据的某个可测量的特性。

            1. Strong-Wang 框架 - 侧重于数据消费者对数据的看法

                    1)内在数据质量: 准确性,客观性,可信度,信誉度

                    2)场景数据质量:增值性;关联性;及时性;完整性;适量性

                    3)表达数据质量:可解释性;易理解性;表达一致性;简洁性

                    4)访问数据质量:可访问性;访问安全性

            2. Thomas Redman框架 - 将数据项定义为“可表示的三元组”,一个实体属性域与值的集合

                    1)数据模型:内容;详细程度

                    2)属性域的精准度:构成;一致性;应变性;数据值;数据表达    

            3. Larry English的综合指标

                    1)固有特征:定义一致性,值域的完备性,有效性,数据源准确性...

                    2)实用特征:可访问性,及时性,语境清晰性,可用性,可整合型,完整性...

            4. DAMA UK的6大核心维度

                    完备性,唯一性,及时性,有效性,准确性,一致性

            5. 有普遍一致性的数据质量维度定义

                1)准确性(Accuracy):数据表示真实实体的程度;

                2)完备性(Completeness):是否存在所有必要的数据;

                3)一致性(Consistency):数据值在数据集内和数据集之间表达的相符程度

                4)完整性(Integrity): 引用完整性

                5)合理性(Reasonability): 数据模式符合预期的程度

                6)及时性(Timeliness):反应数据值是否保持最新,它需要根据预期的波动性来理解及时性度量

                7)唯一性(Uniqueness): 任何实体不会出现重复

                8)有效性(Validity): 数据值与定义的值域一致

            6. 数据质量ISO标准

                ISO 8000定义了数据供应链中组织可以测试的一些特性,帮助组织使用标准约束数据质量。它对高质量数据的定义是“符合规定要求的可移植数据”。

                ISO 22745是定义和交换主数据的标准

        3.2 数据质量改进生命周期

            常用方法是戴明环-PDCA。

            当 有新数据/有新质量标准/现有质量测量值低于阈值时, 就需要启动一个新周期

        3.3 数据质量业务规则

            数据质量业务规则描述了组织内有用数据和可用数据的存在形式,这些规则用于描述质量要求

           常见的业务规则类型包括: 定义一致性;数值存在和记录的完备性;格式符合性,值域匹配性.... 还可能包括聚合检查规则,比如 记录数量的合理性,数值合理性等

        3.4 数据质量问题的发生原因

            1. 缺乏领导力导致的问题: 领导和员工缺乏意识;缺乏治理;缺乏领导力和管理能力;难以证明改进的合理性;测量价值的工具不合适

            2. 数据输入过程引起的问题:输入接口问题;列表条目匹配错误;字段重载;培训问题;业务流程变更;业务流程执行混乱

            3. 数据处理功能引起的问题:数据源的错误假设;过时的业务规则;变更的数据结构;

            4. 系统设计引起的问题:未执行参照完整性;未执行唯一性约束;

            5. 解决问题引起的问题:手动数据修复;未经测试的代码

       3.5 数据质量与数据处理活动

            数据质量改进工作的重点是防止错误,但也可以通过数据处理来提升质量

            1. 数据清理/清洗:检测和纠正数据,使其符合数据标准和域规则

                它的手段包括 1-实施控制防止数据输入错误; 2-纠正源系统中的数据;3-改进数据录入的业务流程

            2. 数据增强/丰富:给数据集添加属性以提高起质量和可用性的过程

                可增加的属性有 时间戳、审计数据、参考词汇表、语境信息、地理信息、人口统计学信息等

            3. 数据解析和格式化:使用预定义的规则来解释其内容和值,并重新组织

            4. 数据转换和标准化:基于规则将数据值的格式进行转换

    四、活动

        4.1 定义高质量数据

            与数据质量相关的期望并不总是已知的。所以启动数据质量方案之前,需要了解业务需求,定义术语,识别组织的痛点,并就数据质量改进的优先事项达成共识

        4.2 定义数据质量战略

            采纳或开发一个框架将有助于指导战略和开展战术,同时提供衡量进展和影响的方法,框架还应该考虑如果管理数据质量以及如何使用数据质量工具

        4.3 识别关键数据和业务规则

            数据质量改进工作通常从主数据开始。 

            重要性分析结果是一个数据列表

            发现和识别业务规则是一个持续的过程,获得规则的最好办法是分享评估结果

        4.4 执行初始数据质量评估

             步骤如下: 1-定义评估目标; 2-确定要评估的数据; 3-识别数据用途和使用者; 4-识别风险; 5-根据规则检查数据;6-记录问题;7-分析问题;8-同数据管理专员/领域专家/数据消费者讨论,确认问题和优先级; 9-使用调查结果作为规划的基础

        4.5 识别改进方向并确定优先级

        4.6 定义数据质量改进目标

                根据数据质量改进带来业务价值的一致性量化,来设定具体和可实现的目标

        4.7 开发和部署数据质量操作

            1. 管理数据质量规则

                预定义的规则可以 1) 对数据质量特征设定明确的期望; 2)提供防止引入数据问题的控制要求;3)项供应商和外部提供数据质量要求;4)为正在进行的数据质量测量和报告创建基础

            2. 测量和监控数据质量

                测量的目的是: 1)向数据消费者通报质量水平; 2)管理业务或技术流程,改变引入的变更风险

                测量可以在三个粒度级别上:数据集,数据实例或记录,数据元素值

            3. 制定管理数据问题的操作过程

                诊断问题-->制定补救方案-->解决问题-->实施解决方案

            4. 制定数据质量服务水平协议

                SLA规定了组织对每个系统中数据质量问题进行响应和补救的期望

            5. 编写数据质量报告

                数据质量评分卡,数据质量趋势,SLA指标等

    五、工具与方法

        5.1 工具

                1. 数据剖析工具

                    数据剖析-data profiling是一种用于检查数据和评估质量的数据分析形式。它用统计技术来发现数据集合的真实结构、内容和质量。

                    它分析 空值、最大/最小值、最大/最小长度、单列的值分布、数据类型和格式。 还做跨列分析,发现重复列。

                    剖析是理解数据的有效方法,使组织能识别潜在的问题。但解决问题还需要业务流程分析、数据血缘分析和更深入的数据分析等来指出根本原因。   

                2. 其他

                    数据查询工具,建模和ETL工具,数据质量规则模版,元数据存储库

        5.2 方法

                1. 预防措施

                    建立输入控制;培训数据生产者;定义和执行规则;对供应商的数据质量要求;实施数据治理和管理制度;制定正式的变更控制

                2. 纠正措施

                    1)自动纠正; 2)人工修正

                    3)人工检查修正: 自动工具纠正后进行人工检查

                3. 质量检查和审核代码模块

                4. 有效的数据质量指标

                     指标要满足: 可度量性、业务相关性、可接受性、问责/管理制度、可控制性、趋势分析。

                5. 统计过程控制(SPC)

                    SPC是一种通过分析过程输入、输出或步骤的变化测量值来管理过程的方法。它的假设是一个有一致输入的过程被一致执行时,将产生一致的输出。六西格玛也是SPC的一种

                    SPC主要工具是控制图

                6. 根本原因分析

                    RCA是一个理解问题发生的因素和作用原理的过程,目的是识别潜在的条件。

                    常见的RCA技术包括: 帕累托分析、鱼骨图分析、跟踪与追踪、过程分析、五个为什么

    六、治理

       6.1 数据质量制度

            制定数据质量制度,并通过治理制度定期地进行质量审计

        6.2 度量指标

            1)投资回报; 2)质量水平; 3)数据质量趋势; 4)数据问题管理指标;5)服务水平一致性;6)数据质量技术示意图


    参考资料

    DAMA-DMBOK2中文版

    相关文章

      网友评论

          本文标题:DG知识点整理-数据质量

          本文链接:https://www.haomeiwen.com/subject/yecakdtx.html