美文网首页工作生活
数据仓库之数据质量管理思路

数据仓库之数据质量管理思路

作者: 吃货大米饭 | 来源:发表于2019-07-03 11:19 被阅读0次

一、数据质量管理问题

源端业务系统数据库 ---- > 数据仓库

中间有可能丢数据 : 100条(源端) 90条(数仓)
中间有可能多数据 : 90条(源端) 100条(数仓)
不丢数据 : 200条(源端) 200条(数仓)

二、数据质量管理

1、数据量的比对 select count(1) 90%的公司都是这么做的
2、数据内容 全字段 很难比对 几乎没有公司做
3、有少部分公司 是 做 抽查比对
4、根据业务周期性,做全量数据比对
5、每天定时凌晨一点做一次增量数据对比
6、复盘:每月做一次 当前时间减一个月的全量数据比对

三、数据质量管理解决方案

利用spark sql full join操作。
假设 testa是mysql ,testb是数据仓库
testa full join testb 结果作为t表。
结果数据展示如下:

aid aname   address bid bname   age
1   x1  sh  1   x1  10
2   x2  hz  2   x2  11
3   x3  [NULL]  3   x3  12
4   x4  bj  4   x4  16
5   x5  gz  [NULL]  [NULL]  [NULL]
[NULL]  [NULL]  [NULL]  7   x7  19
[NULL]  [NULL]  [NULL]  8   x8  22
[NULL]  [NULL]  [NULL]  9   x9  24
[NULL]  [NULL]  [NULL]  10  x10 44

补数据: select * from t where bid is null 拿到a表字段的数据 拼接sql插入数据仓库
删数据: select * from t where aid is null --> bid --delete 语句

相关文章

  • 数据仓库之数据质量管理思路

    一、数据质量管理问题 源端业务系统数据库 ---- > 数据仓库 中间有可能丢数据 : 100条(源端) ...

  • 数据仓库之质量管理

    数据仓库,通过etl工具将多源数据进行集成,内部实现对业务数据的清洗、加工、模型、算法等,以实时或离线的方式对外提...

  • 数据中台之基石:基于Flink SQL构建实数据仓库

    OPPO数据中台之基石:基于Flink SQL构建实数据仓库 - OPPO 实时数仓的演进思路; - 基于 Fli...

  • Flume在企业大数据仓库中数据收集架构

    数据仓库架构 文件数据和关系数据 企业大数据仓库之数据收集架构||linux 企业大数据仓库之数据收集架构||wi...

  • 数据仓库系列之数据质量管理

    数据质量一直是数据仓库领域一个比较令人头疼的问题,因为数据仓库上层对接很多业务系统,业务系统的脏数据,业务系统变更...

  • 【数据仓库】元数据血缘分析

    现在数据仓库基本上采用Hadoop平台了,那么数据仓库里面元数据的血缘分析的思路有哪些呢 基本上有下面这两种思路:...

  • 数据仓库之数据分析

    数据仓库之数据分析 一、课前准备 二、课堂主题 本课程主要为大家揭秘数据仓库的基本概念,以及数据仓库的模型构建,并...

  • 数据仓库的数据质量管理

    数据质量一直是数据仓库领域一个比较令人头疼的问题,因为数据仓库上层对接很多业务系统,业务系统的脏数据,业务系统变更...

  • 大数据经典学习路线(及供参考)之 二

    2.1 数据仓库增强 2.1.1 数据仓库及数据模型入门 什么是数据仓库、数据仓库的意义、数据仓库核心概念、数据仓...

  • 数据仓库技术

    数据仓库基础 数据仓库的价值 数据仓库的源数据类型 数据仓库的基本架构 数据仓库的多维数据模型 数据立方体与OLA...

网友评论

    本文标题:数据仓库之数据质量管理思路

    本文链接:https://www.haomeiwen.com/subject/gixqhctx.html