美文网首页
Hudi系列18:Hudi全量接增量

Hudi系列18:Hudi全量接增量

作者: 只是甲 | 来源:发表于2023-02-14 11:13 被阅读0次

    一. 全量接增量概述

    如果已经有了全量的离线 Hoodie 表,需要接上实时写入,并且保证数据不重复,可以开启 index bootstrap 功能。

    如果觉得流程冗长,可以在写入全量数据的时候资源调大直接走流模式写,全量走完接新数据再将资源调小(或者开启限流功能)。

    WITH参数:

    名称 Required 默认值 说明
    index.bootstrap.enabled true false 开启索引加载,会将已存表
    index.partition.regex false * 设置正则表达式进行分区筛选,默认为加载全部分区

    使用流程:

    1. create table 创建和 Hoodie 表对应的语句,注意 table type要正确
    2. 设置 index.bootstrap.enabled = true 开启批量加载功能
    3. 重启任务将 index.bootstarp.enabled 关闭, 参数配置到合适大小,如果RowDataToHoodieFunction 和 BootstrapFunction 并发不同,可以重启避免shuffle

    相关文章

      网友评论

          本文标题:Hudi系列18:Hudi全量接增量

          本文链接:https://www.haomeiwen.com/subject/suoefdtx.html