美文网首页
利用数据湖特性加速数据校验

利用数据湖特性加速数据校验

作者: 天之見證 | 来源:发表于2024-01-30 11:18 被阅读0次

数据湖自身会提供一些元数据的信息,我们可以利用这些信息进行快速粗略的数据校验

分区数据数校验

以Iceberg为例,catalog.db.tb2.partitions可以得到分区的元数据,里面包括了分区下数据条数和文件大小等信息

select a.*, b.*
from (
    select partition.date, sum(record_count) record_count, 'old' flag
    from catalog.db.tb1.partitions
    group by partition.date
) as a
full join (
    select partition.date, sum(record_count) record_count, 'new' flag
    from catalog.db.tb2.partitions
    group by partition.date
) as b
on a.date = b.date
where a.record_count is null or b.record_count is null or a.record_count != b.record_count

相关文章

  • API 安全机制 | 数据校验

    数据校验 接口层面; 数据库层面; 数据校验 | 接口层面 | 代码 数据校验 | 数据库层面 | 代码

  • 日志定位

    前后端 前端: 收集数据、数据校验、数据处理、数据解析、数据展现 后端: 数据解析、数据校验、数据处理 日志定位 ...

  • 2018-09-27/28日志定位+linux命令

    前后端 一、前端 手机数据 数据校验 数据处理 数据解析 数据展现 二、后端 数据解析 数据校验 数据处理 日志定...

  • Kettle 实战之 (3) 数据校验

    实例 增加节点-数据校验 1、从【校验】节点分类中选择【数据校验】 2、设置校验规则点击【增加校验】,增加校验规则...

  • 学习笔记--(移动数据挖掘引言)

    移动数据挖掘的定义 移动数据挖掘研究的是基于移动数据的数据挖掘算法。这些数据算法需要更多地利用移动数据特性,挖掘与...

  • streamsets利用jython实现数据校验

    一、需求: 利用mongo元数据库中提供的资源描述,去校验csv中的每条数据 二、实现 首先配置好原数据,以及路径...

  • 20170831-SpringMVC 数据校验

    说明:SpringMVC采用的数据校验——JSR 303 需要导入的包(Maven): 数据校验 一、 如何校验?...

  • SpringMVC利用全局异常数据校验

    异常拦截-数据校验 SSM框架集成数据校验: 导入相关jar包 SSM集成所有jar包+以下jar包 数据校验工具...

  • 利用oracle审计,实现只允许指定的IP、应用、用户连接

    需要使用的数据表 数据库用户登录校验-用户 数据库用户登录校验-ip地址 数据库用户登录校验-终端 schema触发器

  • 项目中用到的策略模式

    所在项目:产品中心功能点:数据校验接口该接口用于校验产品中心的数据的正确性,根据数据类型校验,如果是数字类型的数据...

网友评论

      本文标题:利用数据湖特性加速数据校验

      本文链接:https://www.haomeiwen.com/subject/duwnodtx.html