在运维HBase的过程中,经常会遇到用户有统计表的行数的需求,如果表的数量比较小,那么在shell 里面采用count 就可以解决问题,一般1-2个region的都可以采用这个方式,而一旦是几十region , 甚至是上百个region 的时候,这个时候用count就不现实了,那么还有没有什么其他方式呢?
通过查看HBase的代码,发现了HFile在FixedFileTrailer有一个变量
/**
* The number of key/value pairs in the file. This field was int in version 1,
* but is now long.
*/
private long entryCount;
解释里面说,这个指代表HFile里面kv数量,但是这个跟行数是有区别的。

上图中,Table 7 如果用count的话,只有1行,但是KV数量,如果只写了1次的话,那么就只有2个,如果写了多次,那就另算。
基于这个前提,如果知道表没有重复写,或者表经过了compaction , 只保留了一个版本的数据,那么可以通过统计HFile里面的entries来统计表的行数:
hbase org.apache.hadoop.hbase.io.hfile.HFile

采用--printmeta -f /HFile的路径
得到如下内容:

拿到我们需要的信息,后面通过脚本处理就可以。
如果你有其他更好的方式,欢迎评论和我交流。
网友评论