当前越来越多的企业认识到了数据的重要性,数据仓库、大数据平台的建设如雨后春笋。但数据是一把双刃剑,它能给企业带来业务价值的同时也是组织最大的风险来源。糟糕的数据质量常常意味着糟糕的业务决策,将直接导致数据统计分析不准确、监管业务难、高层领导难以决策等问题。因此很多企业迫切的需要一款数据质量探查工具来提升数据质量,那么,一款数据质量探查工具应该具备哪些功能才能称之为优秀的工具呢?
一、这款工具需要提供开箱即用的功能,数据初次导入即自动进行数据内容剖析:
字段中非重复值的个数、所有值的个数
字段中值出现的频率及占比
字段中空值个数及占比
字段中Null的个数及占比
字段中值的最大最小值
字段中值的数据模式个数、出现频率及占比
字段中值按不同数据占位格式的个数、出现频率及占比
值为数值类型时 的标准方差
值为数值类型时百分位 为数值类型时百分位 分析
值为数值类型时自动 求和 、计算 平均值 平均值
二 、它需要能对数据见的关系进行剖析:
1) 主键分析
数据质量探查工具在数据导入时自动进行主键分析,发现所有满足或接近满足唯一性的主键字段,帮助数据管理员和业务人员可以进一步判断确定主键。
2) 字段间依赖分析
数据质量探查工具在数据导入时自动进行表内字段间依赖分析,分析字段间值的冲突情况。帮助数据管理员和业务人员可以进一步判断确定字段间依赖是否正常,并且分析结果可下钻到具体的详细记录。
3) 表间关系分析
数据质量管理平台可发现表间可能的关联关系,分析两表间相同/不相同的值个数及记录数量,能通过维恩图直观方便地进行结果展示,并生成E-R(实体关系模型)
三、数据质量探查工具需要支持多人协:
数据质量探查工具提供Notes(注释)、Bookmarks(电子书签)和时间日志(Event Logs)进行数据分析的跟踪、记录。方便查看发现的突出问题,所关心的地方和检查点等,方便团队进行问题沟通和解决。
书签:在分析数据的时候可以创建书签,并且将共享给其他人后续需要查看点击。
笔记:对发现的问题进行归类, 并评估业务影响度对发现的问题进行归类, 并评估业务影响。
权限控制:可以设置不同的人员,比如财务人员能看到数据,其他不如财务人员能看到数据
回退和钻取:数据质量探查工具提供自带的回退和下钻功能,方便进行剖析结果和诊断结果追踪,比如通过某个字段值的数据模式,可以轻松准确地钻取到相匹配的详细记录,可通过后退按钮显示之前的结果。
四、业务规则管理:
1) 数据质量探查工具提具有务规则管理功能,进行数据合规性检查,标准性检查等数据诊断工作,可创建、修改、删除、运行、快速查找业务规则,可快速定位业务规则所影响的实体表,有助于业务规则变更影响分析。
2) 数据质量探查工具具有业务规则库管理模式,可对业务规则进行分类、优先级管理,支持多种格式导入导出,支持业务规则重用。
3) 数据质量探查工具具有业务规则提供通过率阈值的灵活配置,方便企业灵活配置自己的数据质量诊断标准,快速适应企业不断变化的业务需求。
4)
数据质量探查工具具有对业务规则重复多次运行,可对业务规则结果进行查看分析,可从符合/不符合业务规则记录数钻取到详细信息,进行具体的数据问题分析和定位。结果元数据与其他剖析元数据一样存储在数据质量管理平台资料库里,非常方便导入到Excel或报表工具中进一步进行图形可视化分析。
五,提供可视化报表
数据质量探查工具提供可视化报表,让数据将诶过一目了然。
当然,若能提供调度配置,可对时序类数据进行作业调度及监控,做到异常数据的预警就完美了。
网友评论