【ETL】系列八：数据质量的保障——数据校验

作者: 不爱吃药的小白鼠 | 来源:发表于2020-01-17 18:44 被阅读0次

【ETL】系列八：数据质量的保障——数据校验
数据中台 - 数据质量维度
分布式数据保障
ETL入门系列之 ETL是什么
利用kettle的JS进行ETL数据校验(升级版)
Spring事务详解
基于BroadcastState打造Flink ETL动态解析
API 安全机制 | 数据校验
Software Quality Assurance(OWASP
数据预处理

前面我们介绍了4大类核心转换场景。

【ETL】系列四：核心转换场景—单表间直转

【ETL】系列五：核心转换场景-字段合并与字段拆分

【ETL】系列六：核心转换场景-行转列与列转行

【ETL】系列七：核心转换场景-规格化清洗

之前的文章主要是针对同构或异构数据的转换，然而在数据同步之前或同步之后，都存在数据校验的业务场景。

今天这个篇幅，我们来介绍数据质量管理利器——校验。

找不到合适的图了就将就看吧.jpg

希望在这篇文章结束之后，你可以对以下问题有进一步的理解。

为什们需要数据校验？数据校验的常用规则有哪些？
怎么用kettle对数据进行校验？
kettle的数据校验有哪些不足？如何改进？

一、数据校验介绍

数据校验是在数据抽取、清洗转换流程完成之后，通过一系列的校验规则，定位到错误数据，并将异常数据推送给下游处理，最终提升数据质量的环节。
数据校验是数据质量的重要保障，目前业内认可的数据质量的标准有：

准确性: 描述数据是否与其对应的客观实体的特征相一致；
完整性: 描述数据是否存在缺失记录或缺失字段；
一致性: 描述同一实体的同一属性的值在不同的系统是否一致；
有效性: 描述数据是否满足用户定义的条件或在一定的域值范围内；
唯一性: 描述数据是否存在重复记录；
及时性: 描述数据的产生和供应是否及时；
稳定性: 描述数据的波动是否是稳定的，是否在其有效范围内。

以上列出的数据质量标准只是一些通用的规则，这些标准是可以根据数据的实际情况和业务要求进行扩展。

由数据质量的标准，对应通用的校验规则有：

单字段校验：通过单一字段的约束条件进行校验，包含不为空、比较运算、包含、不包含、取值范围（区间）、取值范围（枚举）、字段长度、字段类型、正则表达式等规则，可用于校验数据的准确性、完整性等；
勾稽关系校验：校验字段通常和其他字段做勾稽对比，利用字段平衡关系（衍生计算）来进行校验；
唯一性校验：针对单一字段或者多个字段组合后做唯一性约束校验，通过重复记录行或其他违反唯一性约束属性值进行校验；
关联性校验：针对字段的关联关系校验，通过引入其他关联字段验证字段的存在和缺失进行校验；
记录行统计型校验：针对某个字段的记录行总数做校验，通过统计记录行数量与合理阈值范围比较来进行校验；
多源对比校验：针对多个数据源的数据进行对比校验，通过关联字段和对比字段的对比，以校验通过率高或匹配率高的数据知晓哪个数据源的数据质量高。

二、怎么用kettle对数据进行校验？

数据校验在完整的数据处理过程中的重要性不言而喻。在kettle中可以进行校验的方式也比较多，我们介绍以下几种常用的方式：

（1）数据校验的插件，支持单字段校验。

kettle内置数据校验.png

从以上截图可以发现，数据校验的插件主要是针对单字段进行校验，校验规则也比较简单。

（2）使用JavaScript函数来实现ETL的自动化校验。

可参考利用kettle的JavaScript 函数进行ETL数据校验

此处不做赘述。

（3）利用合并记录插件，进行多路数据的对比校验。

在这里我们介绍简单介绍一下【合并记录】的操作方式，【合并记录】这一步骤用于将两个不同来源的数据合并，这两个来源的数据分别为旧数据和新数据，该步骤将旧数据和新数据按照指定的关键字匹配、比较、合并。kettle的这种方式类似于简单的多源对比校验。

实操样例：将2路来源的数据进行比较后合并。

操作步骤：
1、点击左侧的 核心对象，选择自定义常量数据，对比2个数据源，就拖选2个插件。

多路数据1-旧数据.png

多路数据2-新数据.png

2、点击左侧的 核心对象，选择 合并记录，进行相关配置。

合并记录进行2路数据比较.png

在这里，需要理解旧数据来源、新数据来源、标志字段、关键字段、比较字段的含义。

1、旧数据来源：旧数据来源的步骤，选择“自定义常量数据-旧数据”；
2、新数据来源：新数据来源的步骤，选择“自定义常量数据-新数据”；
3、标志字段：设置标志字段的名称，标志字段用于保存比较的结果，比较结果有下列几种：

“identical” – 旧数据和新数据一样
“changed” – 数据发生了变化
“new” – 新数据中有而旧数据中没有的记录
“deleted” –旧数据中有而新数据中没有的记录

4、关键字段：唯一索引放在关键字段，用来连接新旧数据源的记录，用于定位两个数据源中的同一条记录，这里是comcode；
5、比较字段：对于两个数据源中的同一条记录中，指定需要比较的字段，这里是proname和curamount；

注：旧数据和新数据要有相同的字段名称，以便关联2个来源的数据。

3、查看合并结果，在标志字段中看identical、changed、new、deleted的对比结果。

合并后的数据将包括旧数据来源和新数据来源里的所有数据，对于变化的数据，使用新数据代替旧数据，同时在结果里用标志字段来指定新旧数据的比较结果。

字段合并结果.png

对于比较、合并之后的数据，可以定义后续的处理方式，比如new的新增数据进行插入，changed数据进行更新，deleted数据进行删除，identical数据不做处理；或者，对于对比不一致（除了identical的情况）的数据，进行清洗纠错处理，确保数据的正确性。

以上是对比2个数据源结果合并的处理流程，是多源数据对比的一个简化版，在实际的业务处理过程中，会面临更加复杂的应用场景。

三、 kettle的数据校验有哪些不足？如何改进？

Kettle主要是处理数据抽取、转换、同步加载的工具，其校验能力并不是很优秀，存在很多不足。

Kettle的校验有哪些不足：

1、校验规则弱：单字段校验、记录行校验、多源对比校验的规则无法有效满足复杂的业务场景；
2、多个校验规则无法快速配置：实际业务中，校验数据对象需要用到多个校验规则，在kettle中无法快速配置；
3、缺少批量操作：校验插件中的操作，缺少批量操作功能，影响配置效率；
4、缺失校验规则管理：缺失以数据表等维度的校验规则的增删查改和操作日志等管理功能；
5、缺失校验异常管理：缺失校验结果异常查看和处理，无法有效跟踪问题；
6、缺失数据质量检核分析：缺少从数据完整性、准确率、及时性等维度，实现字段级、表级的数据质量分析能力。

校验的改进方向：

在实际的业务处理过程中，上述提到的kettle校验不足，无法有效满足校验需求，分享几个改进方向。

1、完善校验规则：kettle的校验规则缺失较多，可以从数据业务中完善校验规则类型，比如财务数据常用的勾稽关系校验；
2、校验规则配置可视化：无论是用SQL函数还是JavaScript函数的实现校验的方式对业务能力的要求都相对较高，可以提供更加简单的、可视化的方式进行配置，降低配置难度；
3、支持自定义校验规则集：一类待校验数据使用一类已定义好的校验规则集，减少单个校验规则的选择和配置；
4、增加批量操作：对于校验规则的配置、校验规则集的定义、校验规则执行方式设置、校验结果处理都需要在交互上支持批量操作；
5、增加校验规则管理功能：对于具体的业务来说，需要支持数据表、规则名称等维度的管理功能，可以按照业务所需的维度，进行校验规则的查看、新增、修改和删除，当然，对于规则的操作日志都需要完整地被记录下来；
6、增加校验异常的处理：校验的异常需要根据具体异常类型支持自动化处理和人工处理2种方式，制定各种自动纠错策略能有效地减少人工处理工作量；
7、增加数据质量分析：增加数据质量问题的分布分析、质量问题趋势分析、质量改善情况等质量分析报表。

除了上述的一些改进方向之外，还有很多可以挖掘改进的点，这些就需要根据具体业务来不断梳理和实现了。

以上描述的不足和改进方向，仅针对业务场景的覆盖度、产品功能的完善性、工具产品的易用性的角度来说的，在数据校验过程中，还有更为重要的性能指标要求，如何快速、稳定地对十万、百万数据进行校验，并及时输出校验结果，这需要很多产品策略和技术方案来实现。

在数据治理体系中，作为数据质量保障的数据校验系统，是需要产品经理持续打磨的工具。

更多关于数据校验的探讨，欢迎大家交流哦！

【ETL】系列八：数据质量的保障——数据校验
前面我们介绍了4大类核心转换场景。【ETL】系列四：核心转换场景—单表间直转【ETL】系列五：核心转换场景-字...
数据中台 - 数据质量维度
在做数据中台-数据质量的过程中，通过调研方法论，可以对数据质量技术类校验类型划分6大维度，这些维度如下: 数据质量...
分布式数据保障
为防止数据丢失,单机情况下用RAID来保障数据,RAID 5使用较多,需要一块硬盘来保留校验码,数据丢失时通过校验...
ETL入门系列之 ETL是什么
ETL定义字面含义：ETL是抽取、转换、加载的缩写。简单定义：将数据从OLTP系统中转移到数据仓库中的一系列操...
利用kettle的JS进行ETL数据校验(升级版)
无意中在网上看到一篇文章《利用kettle中的JS来完成ETL数据校验》，挺受启发的，觉得用JS来实现ETL的自动...
Spring事务详解
前言事务作用：在数据层保障一系列的数据库操作同成功同失败。Spring事务作用：在数据层或业务层保障一系列的数据...
基于BroadcastState打造Flink ETL动态解析
ETL是每个公司大数据部门最重要的部分之一，一个稳定，高效，高质量的ETL流程是任何对大数据有要求的公司所追求的。...
API 安全机制 | 数据校验
数据校验接口层面；数据库层面；数据校验 | 接口层面 | 代码数据校验 | 数据库层面 | 代码
Software Quality Assurance(OWASP
软件质量保障目标软件质量保障的目标是保障私人用户数据在其数据被处理，被存储，被传输的过程中的完整性，机密性是被...
数据预处理
数据ETL：数据挖掘一般过程：数据探索：数据预处理