美文网首页
【HBase运维】利用HFile的元数据快速统计表的KV数量

【HBase运维】利用HFile的元数据快速统计表的KV数量

作者: hPp7mn | 来源:发表于2018-10-22 14:03 被阅读12次

在运维HBase的过程中,经常会遇到用户有统计表的行数的需求,如果表的数量比较小,那么在shell 里面采用count 就可以解决问题,一般1-2个region的都可以采用这个方式,而一旦是几十region , 甚至是上百个region 的时候,这个时候用count就不现实了,那么还有没有什么其他方式呢?

通过查看HBase的代码,发现了HFile在FixedFileTrailer有一个变量

  /**
   * The number of key/value pairs in the file. This field was int in version 1,
   * but is now long.
   */
  private long entryCount;

解释里面说,这个指代表HFile里面kv数量,但是这个跟行数是有区别的。

image.png

上图中,Table 7 如果用count的话,只有1行,但是KV数量,如果只写了1次的话,那么就只有2个,如果写了多次,那就另算。

基于这个前提,如果知道表没有重复写,或者表经过了compaction , 只保留了一个版本的数据,那么可以通过统计HFile里面的entries来统计表的行数:

hbase org.apache.hadoop.hbase.io.hfile.HFile

image.png

采用--printmeta -f /HFile的路径

得到如下内容:

image.png

拿到我们需要的信息,后面通过脚本处理就可以。

如果你有其他更好的方式,欢迎评论和我交流。

相关文章

网友评论

      本文标题:【HBase运维】利用HFile的元数据快速统计表的KV数量

      本文链接:https://www.haomeiwen.com/subject/wupwzftx.html