美文网首页工作生活
数据仓库之数据质量管理思路

数据仓库之数据质量管理思路

作者: 吃货大米饭 | 来源:发表于2019-07-03 11:19 被阅读0次

    一、数据质量管理问题

    源端业务系统数据库 ---- > 数据仓库

    中间有可能丢数据 : 100条(源端) 90条(数仓)
    中间有可能多数据 : 90条(源端) 100条(数仓)
    不丢数据 : 200条(源端) 200条(数仓)

    二、数据质量管理

    1、数据量的比对 select count(1) 90%的公司都是这么做的
    2、数据内容 全字段 很难比对 几乎没有公司做
    3、有少部分公司 是 做 抽查比对
    4、根据业务周期性,做全量数据比对
    5、每天定时凌晨一点做一次增量数据对比
    6、复盘:每月做一次 当前时间减一个月的全量数据比对

    三、数据质量管理解决方案

    利用spark sql full join操作。
    假设 testa是mysql ,testb是数据仓库
    testa full join testb 结果作为t表。
    结果数据展示如下:

    aid aname   address bid bname   age
    1   x1  sh  1   x1  10
    2   x2  hz  2   x2  11
    3   x3  [NULL]  3   x3  12
    4   x4  bj  4   x4  16
    5   x5  gz  [NULL]  [NULL]  [NULL]
    [NULL]  [NULL]  [NULL]  7   x7  19
    [NULL]  [NULL]  [NULL]  8   x8  22
    [NULL]  [NULL]  [NULL]  9   x9  24
    [NULL]  [NULL]  [NULL]  10  x10 44
    

    补数据: select * from t where bid is null 拿到a表字段的数据 拼接sql插入数据仓库
    删数据: select * from t where aid is null --> bid --delete 语句

    相关文章

      网友评论

        本文标题:数据仓库之数据质量管理思路

        本文链接:https://www.haomeiwen.com/subject/gixqhctx.html