- 应用场景
常用场景是将数据引接到数仓,对数据质量进行检查。 - 主要功能
(1)数据质量检查规则
提供质量规则:空值检查、重复值检查、值域检查、规范检查、波动检查、离群值检查、完整性检查、逻辑检查、自定义检查等。
(2)数据质量检查模板配置
针对数据集,根据提供的质量规则列表,选择检查项,配置针对检查项的检查参数,生成质量检查模板。
(3)数据质量检查调度
配置调度参数,定时执行数据质量检查任务。
(4)数据质量检查报告
执行质量检查任务,生成质量检查报告,提供报告下载功能。 - 技术实现
(1)质量检查规则实现
(2)执行引擎
Sql、Python。SparkSql。
(3)数据库
(4)定时调度
定时调度引擎。
参考:
[Apache Griffin]
[Openrfine]
按表配置监控规则
内置模板规则
Profiling Use Case
内置模板规则
网友评论