美文网首页数据中台
谈谈如何以正确的指标驱动有效的进行数据质量控制

谈谈如何以正确的指标驱动有效的进行数据质量控制

作者: 19e1a2398326 | 来源:发表于2021-03-10 11:04 被阅读0次

以下文章来源于数据驱动智能 ,作者晓晓

导语

本文我们将详细介绍讨论DQM时所面临的所有问题:为什么它是必不可少的,如何测量数据质量,良好质量管理的支柱以及数据质量控制技术。我们还将介绍一些数据质量指标示例,您可以参照这些示例来评估您在此方面的工作。

1 什么是数据质量管理(DQM)?

数据质量管理是指在维持高质量数据的一系列实践,包括从获取数据和实施高级数据流程一直到有效地分发数据的所有过程。它还需要企业的数据进行管理监督。有效的DQM对于任何一致的数据分析都是必不可少的,因为数据的质量对于从数据中得出准确的见解至关重要。

2 为什么需要数据质量管理?

尽管数字时代已经成功地促进了广泛的创新,但它也推进了所谓数字时代的“数据危机”-低质量数据。首先我们要弄清数据质量的定义是什么。

数据质量是指对您所拥有的数据的评估,相对于其目的和服务于此目的的能力。数据的质量由不同的因素定义,这些因素将在本文后面详细介绍,例如准确性,完整性,一致性或及时性。这种质量对于满足组织在运营,计划和决策方面的需求是必不可少的。

如今,公司的大多数运营和战略决策都严重依赖数据,因此,数据质量的重要性更为关键。实际上,低质量数据是导致数据仓库建设、大数据建设、主数据中台建设和高级技术项目建设失败的主要原因。一般来说,低质量的数据会影响生产率,利润和整体投资回报率。

稍后,我们将深入探讨劣质数据的一些后果。但是,让我们确保不要陷入“质量陷阱”,因为DQM的最终目标不是针对什么是“高质量”数据创建的主观概念,其最终目标是为那些依赖数据的业务部门增加投资回报(ROI)。

从客户关系管理到供应链管理再到企业资源计划,有效的DQM的好处可能对组织的绩效产生连锁反应。组织可以利用高质量数据来搭建数据仓库,以分析趋势并建立面向未来的策略。在整个行业范围内,对数据质量的正ROI都已广为人知。根据埃森哲公司的一项大数据调查,92%的高管对使用大数据进行管理的结果感到满意,89%的高管认为数据“非常”或“极其”重要,因为它将“像互联网一样彻底改变运营”。

3 数据质量管理的5大支柱

现在您已经了解了高质量数据的重要性,并希望采取行动来巩固您的数据基础,让我们看一下DQM背后的技术以及支持它的5个支柱。

3.1 人员

技术的效率取决于实施它的个人。我们可能在技术先进的商业社会中运作,但是(至今)人为监督和流程实施尚未过时。因此,有几个关于DQM角色需要了解,包括:

DQM项目经理:项目经理的角色应由接受商业智能计划的一般监督职责的高级领导人员担任。他还应监督涉及数据范围、项目预算和计划实施的日常活动的管理。项目经理应领导实现高质量数据和ROI的愿景。

组织变更经理:变更经理的职能顾名思义就是:组织。他通过提供对高级数据技术解决方案的清晰度和洞察力来协助组织。由于通常使用仪表板来突出显示质量问题,因此变更管理在数据质量的可视化中起着重要的作用。

业务/数据分析师:业务分析师是关于业务的“主要部分”。此人从组织的角度定义了质量需求。然后将这些需求量化为数据模型以进行获取和交付。此人(或一组人)确保将数据质量背后的理论传达给开发团队。

3.2 数据剖析

数据剖析是DQM生命周期中必不可少的过程。它涉及:

详细查看数据

将数据与元数据进行比较和对比

运行统计模型

报告数据质量

此过程是为了深入了解现有数据,并将其与质量目标进行比较。它可以帮助企业确定DQM流程的起点,并为提高数据质量设定标准。完整而准确的数据的数据质量指标对于此步骤是必不可少的。准确的数据在寻找不成比例的数字,而完整的数据则在定义数据主体并确保所有数据点都是完整的。我们将在本文的第三部分介绍它们。

3.3 定义数据质量

DQM的第三大支柱是质量本身。应该根据业务目标和需求创建和定义“质量规则”。数据必须遵守这些业务/技术规则,才能被认为是可行的。

业务需求很可能在这一支柱中占据首要位置,因为关键数据元素应该取决于行业。质量规则的开发对于任何DQM过程的成功都是至关重要的,因为这些规则将检测并防止受损数据影响整个数据集的运行状况。

就像抗体检测和纠正我们体内的病毒一样,数据质量规则将纠正有价值数据之间的不一致性。当与在线BI工具结合在一起时,这些规则可以成为预测趋势和报告分析的关键。

3.4 数据报告

DQM报告是删除和记录所有危害数据的过程。应该将其设计为遵循自然的数据规则执行过程。一旦发现并捕获了异常,就应该将它们汇总起来,以便可以识别质量模式。

捕获的数据点应基于特定特征进行建模和定义(例如按规则、按日期、按来源等)。计算完这些数据后,可以将其连接到在线报告软件,以报告质量状态和存在的异常。如果可能,还应实施自动化的“按需”技术解决方案,以便仪表板见解可以实时显示。

报告和监视是数据质量管理ROI的关键,因为它们可以实时随时提供对数据状态的可见性。通过允许企业识别数据异常的位置和方式,数据专家团队可以开始制定补救过程的策略。

了解从何处开始进行主动数据调整将帮助企业进一步挽回每年因低质量数据而造成的损失。

3.5 数据修复

数据修复是确定以下内容的两步过程:

修复数据的最佳方法

实施变更的最有效方式

数据修复最重要的方面是执行“根本原因”检查,以确定数据缺陷产生的原因,位置和方式。实施该检查后,应开始制定修复计划。

依赖于先前有缺陷的数据的数据处理可能需要重新启动,特别是如果其功能受到缺陷数据的威胁或损害的话。这些过程可能包括报告、活动或财务文档。

这也是应该再次检查数据质量规则的地方。审查过程将有助于确定规则是否需要调整或更新,并将有助于开始数据演变过程。一旦数据被认为是高质量的,关键的业务流程和功能就应该更有效,更准确地运行,并获得更高的投资回报率和更低的成本。

4 如何衡量数据质量?

要衡量数据质量,显然需要数据质量指标。它们也是评估提高数据质量所做的努力的关键。在各种质量管理技术中,数据质量指标必须是一流的,并且必须明确定义。这些度量标准涵盖了质量的不同方面,可以用代表准确性、一致性、规范性和完整性及时性的首字母缩略词“ACCIT”来概括。

尽管数据分析可能非常复杂,但所有DQM关键利益相关者都应了解一些基本测量方法。数据质量指标对于为将来的分析提供最佳和最坚实的基础至关重要。这些指标还将帮助您跟踪质量改进工作的有效性,这也是确保数据质量工作在正确轨道上所必需的。让我们研究一下这六类指标,并详细说明它们所包含的内容。

4.1 准确性

是指实时发生的业务交易或状态更改。准确性应该通过源文档(例如,来自业务交互的文档)来度量,但是如果不可用,那么就通过独立性质的确认技术来度量。它将指示数据是否没有重大错误。

一种衡量准确性的典型指标是数据与错误的比率,该比率跟踪相对于数据集的已知错误(例如缺失,不完整或冗余条目)的数量。这个比例当然会随着时间的推移而增加,证明您的数据质量会越来越好。数据与错误之间没有特定的比率,因为它很大程度上取决于数据集的大小和性质-但是越高越好。在下面的示例中,我们看到数据错误率刚好低于准确率95%的目标:

4.2 一致性

严格来说,一致性指定从不同数据集提取的两个数据值不应相互冲突。但是,一致性并不能意味着正确性。

例如,一致性的示例是一条规则,该规则将验证公司每个部门的员工总数不超过该组织中员工总数。

4.3 完整性

完整性将表明是否有足够的数据得出结论。可以通过确定每个数据条目是否为“完整”数据条目来衡量完整性。所有可用的数据输入字段必须完整,并且数据记录集不应丢失任何相关信息。

例如,可以使用的简单质量指标是数据集中的空值数量:在库存/仓库环境中,这意味着每一行条目都指向一个产品,并且每个条目都必须有一个产品标识符。在该产品标识符被填满之前,行项无效。然后,您应该随着时间的推移监控该指标,以实现减少该指标的目标。

4.4 规范性

规范性也称为数据验证,规范性是指对数据进行结构测试以确保数据符合规程。这意味着没有意外的数据错误,并且与其相应的名称(例如,日期,月份和年份)相对应。

这里,一切都归结为数据转换错误率。您希望使用的指标可以跟踪相对于整体而言有多少数据转换操作失败——或者换句话说,以一种格式存储数据并将其转换为另一种格式的过程不成功执行的频率。在下面的例子中,转换错误率是随着时间变化的:

4.5 及时性

及时性符合对数据可用性和可访问性的期望。换句话说,它测量的是期望数据到易于使用之间的时间。

评估及时性的指标是数据的价值转化时间。这对衡量和优化这次时间至关重要,因为它会对企业的成功产生许多影响。如今,获取有价值的数据信息的最佳时机总是如此,因此,您越早获得该信息就越好。

无论选择哪种方式来提高数据质量,都将始终需要衡量工作的有效性。所有这些数据质量指标示例都对数据质量管理开展进行了很好的评估,不应将其排除在外。评估的越多,可以改善的越好,因此控制它是关键。

5 数据质量指标示例

以下给出5个可以使用的数据质量指标示例:

数据与错误的比率:与整个数据集相比,监视已知数据错误的数量。

空值数量:计算数据集中出现空字段的次数。

数据价值转化时间:评估数据集中获得洞察所需的时间。还有其他因素会影响它,但是质量是这次可以提高的主要原因之一。

数据转换错误率:此指标跟踪数据转换操作失败的频率。

数据存储成本:当您的存储成本上升,而所使用的数据量保持不变,或更糟糕的是减少时,这可能意味着存储的数据中有相当一部分质量无法使用。

6 为什么需要更好的数据质量控制?

6.1 高质量数据的好处

让我们在以下方面研究高质量数据的好处:市场营销。想象一下,您有一个购买清单,上面有10,000封电子邮件,姓名,电话号码,公司和地址。然后,假设该列表的20%不正确。这意味着您列表中的20%的电子邮件,姓名,电话号码等有误。如何将其转化为数字呢?

好吧,这样看:如果您针对该列表上的姓名进行一个广告活动,由于这些错误的名称输入,费用将比应有的金额高出20%。如果您进行邮件发送,那么多达20%的信件甚至都不会到达收件人。打电话时,销售代表将把更多的时间浪费在错误的号码或无法接听的号码上。对于电子邮件,您可能会认为这没什么大不了的,但是根据您的“脏”列表,您的未结清费率和其他指标会失真。所有这些成本加起来很快,导致美国公司每年面临6000亿美元的数据问题。

但是,让我们来翻转一下情况:如果您的数据质量控制已经准备就绪,那么您将能够:

以比竞争对手低的成本获得潜在客户

从您执行的每个直接邮件,电话或电子邮件活动中获得更多的投资回报率

向高层管理人员展示更好的结果,使您的广告支出更有可能获得增加

总而言之,在当今的数字世界里,拥有高质量的数据是区分行业领袖和“失败者”的关键。

6.2 不良的数据质量控制的后果

不良的数据质量控制可能会影响组织的各个方面,包括:

您的营销活动需要多少费用,效果如何?

您了解客户的准确程度

您能多快将潜在客户转化为销售线索

您做出业务决策的准确性如何

RingLead为我们提供了一个非常有用的信息图,该信息图揭示了不良数据和干净数据的真实成本。这是摘录:

Gartner的一项研究还告诉我们,不良的数据质量控制使他们调查的公司每年平均损失1,420万美元。

(1)无形成本

我们可以找到许多关于不良数据的有形成本的数据,我们无法直接检查无形成本。但是,我们可以在这方面运用我们的直觉和想象力。

假设您正在努力在公司中创建一种数据驱动的文化。您将带头进行这项工作,并且目前正在执行一项试点计划,以显示使用商业智能和分析制定数据驱动型决策的投资回报率。如果您的数据不是高质量的,那么您将遇到很多问题,向其他人展示BI的优势。如果您将数据质量归咎于“事后”,那么您的话听起来就像是在找借口。

但是,如果您预先解决问题,并向同事明确指出,高质量是绝对必要的,并且是从数据中获得ROI的基础,那么您将处在更好的位置。

(2)错误的决定

也许您想让其他人相信以数据为依据的决策的重要性,也许您的公司已经利用了分析功能,但没有对数据质量控制进行尽职调查。在这种情况下,您可能会面临更大的打击:根据不准确的数据做出代价高昂的决策。

正如大数据专家ScottLowe所说,最糟糕的情况是决策是由不良数据决定的:最终可能导致更大,更严重的问题。他宁愿听从自己的直觉做决定,也不愿冒险用错误的数据做决定。

例如,假设你有一个不正确的数据集,显示你当前的现金流是健康的。如果你感到乐观,你就会大大扩展业务。然后,在一两个季度之后,你就会遇到现金流问题,突然间你就很难支付给供应商(甚至是员工)了。这种灾难性的情况可以通过高质量的数据来避免。

6.3 三种低质量数据来源

我们刚刚介绍了如何清除可能不准确的数据。然而,俗话说,一盎司的预防胜于一磅的治疗。考虑到这一点,这是一些低质量数据的来源,因此您可以注意随着时间的推移保持记录的准确性。请记住:保持数据高质量不是一项一次性的工作。这是一个永无止境的持续过程。

    来源1:并购

当两家公司以某种方式合并在一起时,它们的数据标签就形成了这种新的工作关系。但是,就像两个有以前婚姻的孩子的人建立新的关系一样,事情有时会变得混乱。

例如,两家公司很有可能甚至完全有可能使用完全不同的数据系统。也许其中一个拥有旧版数据库,而另一个拥有更新的数据库。或者您使用不同的数据收集方法。其中的一个公司甚至有可能拥有许多不正确的数据。

数据专家史蒂夫•霍伯曼举例说明了合并引起的困难。他写道,当这两个数据库彼此不同时,您必须建立一个赢家-输家矩阵,该矩阵指出哪个数据库的条目被视为“真实”。如您所料,这些矩阵可能变得极其复杂:在某些时候,“赢家-输家矩阵是如此复杂,以至于没有人真正了解正在发生的事情”,他说。的确,程序员可以开始与业务分析师争论徒劳无益,并且“抗抑郁药的消费量正在上升”。

行动步骤:在计划合并或收购的事件中,确保将IT主管带到谈判桌前,这样这些问题就可以在任何交易签署之前就提前计划好。

    来源2:从旧系统过渡

对于非技术用户,可能很难理解从一个系统切换到另一个系统所固有的困难。凭直觉,一个外行人会期望事情已经“准备好”,这样过渡对于最终用户来说既简单又轻松。这绝对与现实不符。

许多公司在其已有数十年历史的数据库中使用所谓的“旧版系统”,当不可避免的过渡时期到来时,将面临许多问题。这是由于数据系统本身的技术性质。每个数据系统都包含三个部分:

数据库(数据本身)

业务规则(解释数据的方式)

用户界面(显示数据的方式)

从一个系统到另一个系统的数据转换过程中,这些不同的部分可能会带来不同的挑战。正如史蒂夫·霍伯曼所写,关注的焦点是数据转换期间的数据结构。但这是一种失败的方法,因为源和目标的业务规则层非常不同。即使在技术上仍然正确,转换后的数据在实际应用中还是不可避免地会不准确。

行动步骤:从旧系统过渡到新系统时,仅让过渡团队成为一个系统或另一个系统的专家是不够的。他们都必须在这两个方面都是专家,以确保过渡顺利进行。

    来源3:用户错误

由于人将始终参与数据输入并且人会犯错误,因此这是一个永远不会消失的问题。人们会定期打错东西,这必须予以考虑。史蒂夫·霍伯曼在他的TechTarget帖子中讲述了一个有关他的团队如何负责“清理”数据库并纠正所有错误条目的故事。

您会认为数据清理专家将是万无一失的,对吧?好吧,事实并非如此。正如霍伯曼先生所说,“仍然有3%的更正输入有误。这是在一个以数据质量为主要目标的项目中!”

行动步骤:创建公司使用的所有表格,尽可能简单直接地填写。虽然这不能完全防止用户错误,但至少可以减少错误。

7 综述

希望这篇文章为您提供了保持数据高质量所需的信息和工具。我们也希望您同意,数据质量管理是确保组织在数字时代保持竞争力的关键过程。虽然维护高质量的数据似乎是一件很痛苦的事情,但想想其他公司也觉得DQM是一个巨大的麻烦。所以,如果你的公司煞费苦心地让你的数据变得可信,你就会自然而然地在你的市场上获得竞争优势。俗话说,“如果事情很容易,每个人都会去做。”DQM是创建有效的业务仪表板的先决条件,该仪表板将帮助您进行决策并推动业务发展。

华矩科技数诊台,专业的数据质量分析工具(SaSS版),

华矩科技数诊台,专业的数据质量分析工具(SaSS版),在数据导入时及完成数据的完整性、一致性、准确性、唯一性、合规性等的探查与剖析,为企业的系统实用化,数据价值最大化提供了保障,协助用户构建了完善的数据质量管理体系,实现了数据服务平台对于数据质量管理的要求。

华矩科技数诊台所依托华矩数据质量探查工具,通过界面向导式操作方式,通过简单配置即可完成数据质量检测规则的定义,无需编码,无需拼写SQL,数据质量检测工作由研发工程师转移到业务工程师,释放研发资源,降低项目人员成本,提高项目实施进度,同时兼顾项目成本与实施效率,为数据价值最大化奠定坚实的基础。

相关文章

  • 谈谈如何以正确的指标驱动有效的进行数据质量控制

    以下文章来源于数据驱动智能,作者晓晓 导语 本文我们将详细介绍讨论DQM时所面临的所有问题:为什么它是必不可少的,...

  • 数据指标从了解到设计

    一直以来通过数据驱动业务,驱动产品的重要性被认为是毋庸置疑的,但是我们使用数据驱动的方法是正确的吗?使用的指标是合...

  • 为什么数据质量监控能让你的数据更可信?

    为什么数据质量监控能让你的数据更可信? 数据质量是数据分析和数据挖掘理论有效性和准确性的基础,也是数据驱动决策的前...

  • 深度学习 之 data augmentation

    深度学习是基于数据驱动的学科,通过data augmentation(数据扩张)可以有效的进行数据扩张并进行一些数...

  • 单细胞分析:质控实操(五)

    1. 学习目标 构建质量控制指标并评估数据质量 适当的应用过滤器去除低质量的细胞 2. 过滤目标 过滤数据以仅包含...

  • 四种控制体系

    信仰控制体系、边界控制体系、指标控制体系、交互控制体系。 其中,指标控制体系最常见,但是为了让指标控制体系能够有效...

  • 数据驱动之 UITableViewController

    数据驱动:即使用数据驱动ui的展示,而不需要手动去调整ui,从而将数据与ui进行绑定,界面的布局全部由数据来控制;...

  • 单细胞RNA-seq:质量控制分析

    学习目标: -构建质量控制指标,可视化地评估数据的质量-应用适当的过滤器去除低质量的细胞 单细胞RNA-seq:质...

  • 使用scater包进行单细胞测序分析(二):数据质量控制

    scater包提供了一系列的数据质量控制方法,可以对单细胞转录组数据进行严格的质量控制,它主要从以下三个方面进行质...

  • 软件质量

    有效地测试时软件质量的重要保证。(测试除了量化指标以外,还可以作为动力来驱动开发的进度,这就是极限编程倡导的测试驱...

网友评论

    本文标题:谈谈如何以正确的指标驱动有效的进行数据质量控制

    本文链接:https://www.haomeiwen.com/subject/bdcwqltx.html