HUDI 0.11.1 cli使用问题和分析解决

作者: AlienPaul | 来源:发表于2022-10-25 12:19 被阅读0次

HUDI 0.11.1 cli使用问题和分析解决
HoodieWriteHandle 数据写入处理
Jenkins 自动打包上传 fir/fastlane等配置通用
vue项目设置全局作用域scss变量
Vue 使用 eslint 后 Parsing error: U
VueJs前后端分离跨域问题
Property 'validate' does not exi
npm install 权限问题以及包不兼容问题解决
解决抓到的报文校验和错误问题
redis使用get key中文变成十六进制编码

问题描述

我们通过Flink插入一张演示用Hudi表，SQL语句如下：

CREATE TABLE t1(
  uuid VARCHAR(20),
  name VARCHAR(10),
  age INT,
  ts TIMESTAMP(3),
  `partition` VARCHAR(20)
)
PARTITIONED BY (`partition`)
WITH (
  'connector' = 'hudi',
  'path' = 'hdfs:///path/to/table/',
  'table.type' = 'COPY_ON_WRITE'
);

-- insert data using values
INSERT INTO t1 VALUES
  ('id1','Danny',23,TIMESTAMP '1970-01-01 00:00:01','par1'),
  ('id2','Stephen',33,TIMESTAMP '1970-01-01 00:00:02','par1'),
  ('id3','Julian',53,TIMESTAMP '1970-01-01 00:00:03','par2'),
  ('id4','Fabian',31,TIMESTAMP '1970-01-01 00:00:04','par2'),
  ('id5','Sophia',18,TIMESTAMP '1970-01-01 00:00:05','par3'),
  ('id6','Emma',20,TIMESTAMP '1970-01-01 00:00:06','par3'),
  ('id7','Bob',44,TIMESTAMP '1970-01-01 00:00:07','par4'),
  ('id8','Han',56,TIMESTAMP '1970-01-01 00:00:08','par4');

然后我们进入Hudi cli，执行show fsview all命令，查看HUDI数据目录的文件存储结构。我们发现无法查询到任何内容。但是通过hdfs dfs -ls /path/to/table命令查看，数据文件确实是存在的。

问题截图

问题分析和临时解决方案

第一部分

我们首先怀疑的地方是HUDI。找到HUDI处理这条命令的源代码。如下所示：

@CliCommand(value = "show fsview all", help = "Show entire file-system view")
  public String showAllFileSlices(
      @CliOption(key = {"pathRegex"}, help = "regex to select files, eg: 2016/08/02",
          unspecifiedDefaultValue = "*/*/*") String globRegex,
      @CliOption(key = {"baseFileOnly"}, help = "Only display base files view",
          unspecifiedDefaultValue = "false") boolean baseFileOnly,
      @CliOption(key = {"maxInstant"}, help = "File-Slices upto this instant are displayed",
          unspecifiedDefaultValue = "") String maxInstant,
      @CliOption(key = {"includeMax"}, help = "Include Max Instant",
          unspecifiedDefaultValue = "false") boolean includeMaxInstant,
      @CliOption(key = {"includeInflight"}, help = "Include Inflight Instants",
          unspecifiedDefaultValue = "false") boolean includeInflight,
      @CliOption(key = {"excludeCompaction"}, help = "Exclude compaction Instants",
          unspecifiedDefaultValue = "false") boolean excludeCompaction,
      @CliOption(key = {"limit"}, help = "Limit rows to be displayed", unspecifiedDefaultValue = "-1") Integer limit,
      @CliOption(key = {"sortBy"}, help = "Sorting Field", unspecifiedDefaultValue = "") final String sortByField,
      @CliOption(key = {"desc"}, help = "Ordering", unspecifiedDefaultValue = "false") final boolean descending,
      @CliOption(key = {"headeronly"}, help = "Print Header Only",
          unspecifiedDefaultValue = "false") final boolean headerOnly)
      throws IOException {

    HoodieTableFileSystemView fsView = buildFileSystemView(globRegex, maxInstant, baseFileOnly, includeMaxInstant,
        includeInflight, excludeCompaction);
    // ...
    // 后面的代码省略
  }

我们注意到pathRegex这个参数（在方法中的参数名为globRegex）。这个参数的默认值提供的是有3个分区字段的情况。和我们上面的例子不同。上面的例子中只有1个分区字段。为了验证方便，我们修改源代码，将globRegex变量通过日志打印出来（中间步骤省略）。编译后再次执行show fsview all命令。我们惊奇的发现，globRegex变量和我们输入的pathRegex参数不一致。我们传入*/*/*，但globRegex得到的却是*/**。到这里，我们开始怀疑Shell框架也有问题。

结合@CliOption注解这种写法和pom文件中的依赖，不难发现Hudi cli使用的Shell框架为spring-shell 1.2.0.RELEASE。我们尝试着找spring-shell源代码中是否有处理符号相关的内容。发现有这么一段代码。它位于org.springframework.shell.core.AbstractShell::executeCommand，spring shell本意用这段代码处理shell命令中的块注释和单行注释。碰巧我们的参数*/*/*就包含了块注释开始和结束的符号。spring-shell的这个功能在此场景下明显是“画蛇添足”了。

我们分析下spring-shell是如何处理块注释的。org.springframework.shell.core.AbstractShell::executeCommand方法代码如下所示：

// We support simple block comments; ie a single pair per line
// spring shell只支持行内的块注释
// inBlockComment标记了目前解析到了块注释之内
// 如果不在块注释之内，并且命令行字符串同时包含/*和*/
if (!inBlockComment && line.contains("/*") && line.contains("*/")) {
    blockCommentBegin();
    // 我们将最后一个/*，连同它后面的字符串都裁剪掉
    String lhs = line.substring(0, line.lastIndexOf("/*"));
    // 如果含有块注释结束*/符号
    if (line.contains("*/")) {
        // 裁剪掉命令行最有一个*/及其之前的所有内容，和lhs拼接在一起，这样就得到了/*和*/之外的字符串内容
        line = lhs + line.substring(line.lastIndexOf("*/") + 2);
        blockCommentFinish();
    } else {
        line = lhs;
    }
}
if (inBlockComment) {
    if (!line.contains("*/")) {
        return new CommandResult(true);
    }
    blockCommentFinish();
    line = line.substring(line.lastIndexOf("*/") + 2);
}
// We also support inline comments (but only at start of line, otherwise valid
// command options like http://www.helloworld.com will fail as per ROO-517)
if (!inBlockComment && (line.trim().startsWith("//") || line.trim().startsWith("#"))) { // # support in ROO-1116
    line = "";
}

spring-shell针对块注释的处理逻辑在上面代码注释中我们已分析，但是它还有bug。出现bug的地方正是我们的场景。对于*/*/*。首先裁剪掉最后一个/*及其后面的字符串，此时lhs为*/*。然后裁剪掉最后一个*/及其前面的所有内容，得到*，然后将二者拼接在一起，最终结果为*/**。这明显是有问题的。spring-shell没考虑到*/会在/*之前这种情况。上面是分析这段代码时候顺便发现的问题。不过不用去纠结这一点，回到本篇开篇的问题，我们只需要将spring-shell的块注释解析功能屏蔽掉就可以了。

阅读了spring-shell 1.2.0.RELEASE的官方文档和查看注释解析的源代码，并没有发现官方为我们预留了什么配置，可以用来关闭注释解析这个特性。我们只能自己动手。将上面代码片段的内容注释掉，重新编译spring-shell。将编译好的jar包覆盖Hudi cli的同名文件后，注释解析问题解决。获取到的globRegex终于和pathRegex传入的参数值相同。

第二部分

解决了上面的问题，我们需要分析pathRegex默认参数和我们例子不匹配的问题。pathRegex的默认值为*/*/*。对于一个有三个分区字段的表（比如按照时间的年、月、日分区）。这种表在存储的时候，表数据文件以年/月/日这种三级目录的结构组织。目录结构正好和*/*/*正则表达式匹配。但是对于我们的例子呢？只有一个分区字段，明显不是*/*/*这种目录结构。所以说我们需要手工指定pathRegex参数。参数中的目录层级需要和分区表的分区字段数匹配。这一点非常重要。

最终解决

本人提交了Hudi社区issue和patch:[HUDI-4485] Hudi cli got empty result for command show fsview all - ASF JIRA (apache.org)。由于spring-shell 1.2.0.RELEASE版本过于老旧，和Spring社区联系后表示这个版本不再维护，建议升级到spring-shell 2.x最新版本。一直使用老版本也不利于以后新功能的开发。经过版本特性调研和试用发现spring-shell 2.1.1版本默认不解析块注释。因此，最终决定通过升级spring-shell版本的方式，解决了这个问题。目前PR已合并，新版本中此问题已解决。

声明

本博客为作者原创，欢迎大家参与讨论和批评指正。如需转载请注明出处。

HUDI 0.11.1 cli使用问题和分析解决
问题描述我们通过Flink插入一张演示用Hudi表，SQL语句如下：然后我们进入Hudi cli，执行show...
HoodieWriteHandle 数据写入处理
项目中使用Flink SQL 将离线数据、流数据写入Hudi，自下而上分析写hudi的流程。hudi 版本0.10...
Jenkins 自动打包上传 fir/fastlane等配置通用
脚本自行解决安装Jenkins JenKins安装 fir-cli基本使用安装遇到其他问题请自行搜索解决. 1...
vue项目设置全局作用域scss变量
vue-cli 2.0 使用sass-resources-loader解决Sass全局变量问题安装 sass-r...
Vue 使用 eslint 后 Parsing error: U
问题：在使用vue cli+eslint的时候，遇到如下问题：解决办法： 1、在.eslint.js配置文件中...
VueJs前后端分离跨域问题
使用vue-cli搭建的vue项目可以使用在项目内设置代理（proxyTable）的方式来解决跨域问题设置配置...
Property 'validate' does not exi
使用vue-cli 3.0+Element-ui时候，调用form表单校验时候出现的问题是：解决方案：
npm install 权限问题以及包不兼容问题解决
最近在使用angular cli的时候，使用npm install会出现没有用户根文件夹访问权限的问题解决方法：...
解决抓到的报文校验和错误问题
解决抓到的报文校验和错误问题在linux上使用tcpdump抓包，使用wireshark分析时发现发出的报文校验...
redis使用get key中文变成十六进制编码
redis-cli 后面加上 --raw 解决中文显示问题redis-cli -h 127.0.0.1 -p 端口...