数仓数据质量检查

作者: 王吉吉real | 来源:发表于2017-10-17 20:16 被阅读98次

数据仓库上下游表间数据质量检查产生于下游表生成过程中,也是下游表本身的数据质量控制问题,上下游的关系并不仅限于数据仓库各层数据表,还包括同一层的有上下游关系的数据表。主要有三个方面:字段合法性、数据一致性和逻辑一致性

1、字段合法性

字段合法性是检查字段本身是否符合预期,一般只在上游数据做检查,除非该字段是对于上游数据来说是新字段。对于从上游数据得到的同一维度字段,在数仓数据表的同一层只检查一遍即可。有新逻辑加入的时候,可以不做字段合法性检查。需做合法性检查的字段可以大致的分为可枚举类型和非可枚举类型

可枚举类型

可枚举类型字段包括枚举类型、类枚举字符串、类枚举事实表外健等。在实际操作中,会分为两种情况进行合法性检查。其一,如果可枚举类型的取值在50个左右,通常会把所有取值及其计数统计出来,一方面可以检查该字段取值本身是否合法,另一方面还可以检查计数本身是否符合预期。数据检查中,尽可能用最少取数次数查看最多的检查项。其二,如果可枚举类型取值较多,有几百甚至是千级万级,检查时可以按计数进行排序,然后按字段取值排序,检查排序靠前与靠后字段取值及其计数,这样就可以定位大多数问题了。

非可枚举类型

非可枚举类型字段,一般会包含很多种情况,比如:一些32位和64位的标识,时间戳、连续性数值、搜索关键词等。这样在检查时除了可以对字段和字段计数值进行排序外,还可以设定字段取值范围、字段本身长度等对字段进行检查。

2、数据一致性

数据一致性是检查从上下游表间数据是否一致。任何一份数据表生成时都应该保持上下游一致,不一致就意味着数据本身或验证过程可能有问题。该检查一般可以按先粗后细原则,先查看粗粒度数据,没有问题才查看更细粒度数据查看。比如,dau数据,可以先对比上下游数据的总dau, 总dau没有问题,再查看几个主要维度数据,如果不是聚合数据,最后拿上下游数据中同一个用户的明细记录做下对比。数据更新做一致性检查时,如果可以在新老数据之间进行,则在新老数据之间进行,不能在新老数据之间进行则在上下游之间进行。如果可能,一定要做取几条明细数据做检查。

3、逻辑合法性

逻辑一致性是检查数据本身所包含的字段及字段之间的关系是否符合一定的预设逻辑。例如:uid与session_id为一对多关系,但反之不成立。也跟字段合法性检查一样,逻辑一致性检查一般发生在上游数据里,下游数据,尤其是不添加新的维度字段的下游数据,一般不进行逻辑一致性检查。对于从上游数据得到的同一维度字段,在数仓数据表的同一层只检查一遍即可。在该项检查中,具体可以检查多少项,因人而异,因为每个人对数据生成机制、业务用途等了解情况不一样,能想到的检查项也就会有很大不同。

综上,数仓数据表的质量检查,包括字段合法性、数据一致性、逻辑合法性3个方面,当并不是左右数据都要做3方面的数据检查。另外,所有的数据质量控制都是对最终交付数据做的,对非交付的中间数据如无必要,不做质量检查。

相关文章

  • 数仓数据质量检查

    数据仓库上下游表间数据质量检查产生于下游表生成过程中,也是下游表本身的数据质量控制问题,上下游的关系并不仅限于数据...

  • 数据质量检查工具

    应用场景常用场景是将数据引接到数仓,对数据质量进行检查。 主要功能(1)数据质量检查规则提供质量规则:空值检查、重...

  • 用户行为数仓搭建

    # 数仓分层概念 1.数仓分层 ods 存放原始数据 dwd 数据清洗 dws 数据汇总 ads 为统计报表提供数...

  • 企业何时进行数据治理才是最佳时机

    找准数据治理的切入点,是关乎数据治理成败的关键。如果将数仓建设分为数仓雏形阶段、数仓迭代阶段和能力沉淀阶段,数据治...

  • 数仓的发展与特性

    一.何为数仓? 也就是集成化数据环境,控制数据的流入与流出,本身并不产生和消费数据。 二.数仓的作用? 1、管理数...

  • 数据中台和数仓的关系

    传统数仓 传统数仓有几个特点: 数据具有历史性 基于文件存储 以表为形态,自带元数据存储(比如Hive) 在数仓的...

  • 数仓建设规范

    本文将全面讲解数仓建设规范,从数据模型规范,到数仓公共规范,数仓各层规范,最后到数仓命名规范,包括表命名,指标字段...

  • 数据仓库(02)数仓、大数据与传统数据库的区别

      数据仓库(数仓)与大数据区别,数据仓库(数仓)与数据库的区别,大数据与传统数据库的区别等等,这篇文章带你了解。...

  • 【理论+实战知识】数据仓库建设保姆级5W字教程1

    一、数仓基本概念 1、数据仓库架构 我们在谈数仓之前,为了让大家有直观的认识,先来谈数仓架构,“架构”是什么?这个...

  • 数仓建设保姆级教程,离线和实时理论+实战)

    文档大纲: 一、数仓基本概念 1. 数据仓库架构 我们在谈数仓之前,为了让大家有直观的认识,先来谈数仓架构,“架构...

网友评论

    本文标题:数仓数据质量检查

    本文链接:https://www.haomeiwen.com/subject/fbkjuxtx.html