Hudi系列4:Hudi数据写操作流程

Hudi系列4:Hudi数据写操作流程

作者: 只是甲 | 来源:发表于2023-01-10 10:41 被阅读0次

HoodieWriteHandle 数据写入处理
Hudi系列1:Hudi介绍
大数据之数据湖---flink 整合hudi
[Hudi学习笔记] Hudi 与Kudu、Hive Trans
Hudi系列2:Hudi安装
HoodieClient、HoodieTable、ActionE
flink13.5整合hudi10
hudi mor表数据读取
HUDI 0.11.1 cli使用问题和分析解决
hudi

一. Hudi数据写流程概述

在Hudi数据湖框架中支持三种方式写入数据：UPSERT（插入更新）、INSERT（插入）和BULK INSERT（批量写入）

UPSERT：默认行为，数据先通过 index 打标
(INSERT/UPDATE)，有一些启发式算法决定消息的组织以优化文件的大小
INSERT：跳过 index，写入效率更高
BULK_INSERT：写排序，对大数据量的 Hudi 表初始化友好，对文件大小的限制 best effort（写 HFile）

二. upsert写流程

2.1 Copy On Write类型表，UPSERT 写入流程

先对 records 按照 record key 去重；
首先对这批数据创建索引 (HoodieKey => HoodieRecordLocation)；通过索引区分哪些 records 是 update，哪些 records 是 insert（key 第一次写入）；
对于 update 消息，会直接找到对应 key 所在的最新 FileSlice 的 base 文件，并做 merge 后写新的 base file (新的 FileSlice)；
对于 insert 消息，会扫描当前 partition 的所有 SmallFile（小于一定大小的 base file），然后 merge 写新的 FileSlice；如果没有 SmallFile，直接写新的 FileGroup + FileSlice；

2.2 Merge On Read类型表，UPSERT 写入流程

先对 records 按照 record key 去重（可选）
首先对这批数据创建索引 (HoodieKey => HoodieRecordLocation)；通过索引区分哪些 records 是 update，哪些 records 是 insert（key 第一次写入）
如果是 insert 消息，如果 log file 不可建索引（默认），会尝试 merge 分区内最小的 base file （不包含 log file 的 FileSlice），生成新的 FileSlice；如果没有 base file 就新写一个 FileGroup + FileSlice + base file；如果 log file 可建索引，尝试 append 小的 log file，如果没有就新写一个 FileGroup + FileSlice + base file
如果是 update 消息，写对应的 file group + file slice，直接 append 最新的 log file（如果碰巧是当前最小的小文件，会 merge base file，生成新的 file slice）log file 大小达到阈值会 roll over 一个新的

三. insert写流程

3.1 Copy On Write类型表，INSERT 写入流程：

先对 records 按照 record key 去重（可选）；
不会创建 Index；
如果有小的 base file 文件，merge base file，生成新的 FileSlice + base file，否则直接写新的 FileSlice + base file；

3.2 Merge On Read类型表，INSERT 写入流程

先对 records 按照 record key 去重（可选）；
不会创建 Index；
如果 log file 可索引，并且有小的 FileSlice，尝试追加或写最新的 log file；如果 log file 不可索引，写一个新的 FileSlice + base file；

参考:

相关文章

HoodieWriteHandle 数据写入处理
项目中使用Flink SQL 将离线数据、流数据写入Hudi，自下而上分析写hudi的流程。hudi 版本0.10...
Hudi系列1:Hudi介绍
一. 什么是Hudi Apache Hudi（发音“hoodie”）是下一代流数据湖平台。Apache Hudi将...
大数据之数据湖---flink 整合hudi
1.hudi 简介 2.hudi 应用 2.1 特性 2.2 Timeline acion操作包括： savep...
[Hudi学习笔记] Hudi 与Kudu、Hive Trans
What is Hudi? Hudi是Hadoop Upserts anD Incrementals的缩写，用于管...
Hudi系列2:Hudi安装
编译环境准备软件版本Hadoop3.3.2Hive3.1.2Spark3.3.1Flink1.14.5 一. 下...
HoodieClient、HoodieTable、ActionE
HoodieTable 定义了写hudi 表依赖的组件及对表操作API(upsert、delete等)，根据不同...
flink13.5整合hudi10
1. 版本组件版本hudi10.0flink13.5 2.hudi 源码下载 2.1 需要改flink 版本为...
hudi mor表数据读取
hudi 数据读取以 fileSlice 为单位读取, 依次将 fileSlice 的basefile、logf...
HUDI 0.11.1 cli使用问题和分析解决
问题描述我们通过Flink插入一张演示用Hudi表，SQL语句如下：然后我们进入Hudi cli，执行show...
hudi
https://archive.apache.org/dist/hadoop/common/hadoop-2.7....

网友评论

本文标题：Hudi系列4:Hudi数据写操作流程

本文链接：https://www.haomeiwen.com/subject/svmlxdtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Hudi系列4:Hudi数据写操作流程|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！