美文网首页大数据相关
HBase学习 - HFile格式 以及 HFile的读写

HBase学习 - HFile格式 以及 HFile的读写

作者: aaron1993 | 来源:发表于2017-11-22 23:38 被阅读4024次

1.前言

HBase的数据最终是以HFile的形式存储在HDFS中的,HBase中HFile有着自己的格式。一次memstore的flush会产生一个HFile,一次Compact会导致多个HFile合并成一个。本文主要讲述一下HFile文件格式,并介绍一些HBase中是如何读取,写出HFile的。通过HBase提供的读/写HFile的reader和writer工厂类,使用者可以直接从HFile文件读取数据,从而绕过HBase提供的Scan、Get、Put等api。

2. HFile格式

HFile格式.png

如上图所示,一个HFile内容是由一个个block组成的,按照block类型可分为:

  1. datablock 存放的key-value数据,一般一个datablock大小默认为64KB,
  2. data index block,其中存放的是datablock的index,索引可以是多级索引,中间索引,叶子索引一般会分布在HFile文件当中。root 索引位置见图中 root data-block-index
  3. bloom filter block, 保存了bloom过滤器的值
  4. meta data block,meta data block有多个,且连续分布,见图中meta data block
  5. meta data index,顾名思义
  6. file-info block, 其中记录了关于文件的一些信息,比如:HFile中最大的key、平均Key长度、HFile创建时间戳、data block使用的编码方式等等
  7. trailer block,每个HFile文件都会有的,对于不同版本的HFile(有V1,V2,V3三个版本,V2和V3相差不大)来说trailer长度可能不一样,但是同一个版本的所有HFile trailer的长度都是一样长的,并且trailer的最后4B一定是版本信息

从上图可以看出在meta data block之前,datablock、bloom filter block,叶子/中间层data block索引是相间分布的,meta block之后就不会再有data block了

2.1 HFileBlock

出了trailer以外,其他的数据都是一个个block,由类HFileBlock表示,每一个block里都有一个header记录了一些关于这个block的信息如下:

  1. BlockType, 8B, block所属类型
  2. onDiskSizeWithoutHeader,4B,当前block中出了header以外占住的磁盘大小(由于磁盘上的数据是经过编码和压缩的,所以和内存中大小是不一样的)
  3. uncompressedSizeWithoutHeader,4B,block数据未压缩前在内存中占据的大小,不包括header。
  4. prevBlockOffset, 8B,前一个block的offset
  5. checkSum type,1B,使用的校验和方法,CRC32之类的
  6. num of data bytes per check sum, 4B,多少个字节计算一次校验和
    7 .onDiskDataSizeWithHeader,4B,当前block占据磁盘的总大小
    以上每个block都会有固定的33Byte的header大小。

header接下来就是真实的数据了。
数据后面就是checksum,由于是每多少个字节计算一次checksum,所以有多个checksum,每个checksum占据4Byte。

3.读写

无论读写HFile,都可以通过org.apache.hadoop.hbase.io.hfile.HFile这类类提供的一些静态方法来实现

3.1 写

写HFile的类继承结构如下:


Writer.png
  1. HFileWriterV2和HFileWriterV3分别 负责v2和v3版本的HFile的写.

它们的实例则是通过对应的两个工厂类WriterFactoryV2和WriterFactoryV3。
类HFile提供了创建WriterFactoryXX的方法如下:

  public static final WriterFactory getWriterFactory(Configuration conf,
      CacheConfig cacheConf) {
    int version = getFormatVersion(conf);
    switch (version) {
    case 2:
      return new HFileWriterV2.WriterFactoryV2(conf, cacheConf);
    case 3:
      return new HFileWriterV3.WriterFactoryV3(conf, cacheConf);
    default:
      throw new IllegalArgumentException("Cannot create writer for HFile " +
          "format version " + version);
    }
  }

使用Writer至少需要在conf里面通过hfile.format.version指定version,且只能是2或3, 代表着v2和v3

3.2 读

Reader继承结构如下:

Reader.png

同样有V2和V3两个版本的reader。
通过HFile的静态方法获取Reader如下:

public static Reader createReader(FileSystem fs, Path path,
      FSDataInputStreamWrapper fsdis, long size, CacheConfig cacheConf, Configuration conf)
      throws IOException

  public static Reader createReader(
      FileSystem fs, Path path, CacheConfig cacheConf, Configuration conf) throws IOException

获取reader无需指定version,因为version信息已经在HFile的trailer里面了。

相关文章

  • HBase学习 - HFile格式 以及 HFile的读写

    1.前言 HBase的数据最终是以HFile的形式存储在HDFS中的,HBase中HFile有着自己的格式。一次m...

  • HBase HFileV2 Data Block 分析

    从hbase 0.92版本后,hbase HFile格式变为2.0,对应的写对象为HFileWriterV2,hb...

  • HBase HFile

    本文主要介绍Hbase中HFile的结构,说明下结构中各区域的作用 1.HFile文件结构 每个region对应一...

  • HBase读写操作

    HBase读写操作 读和写是Hbase的两种常见的基本操作,这两种操作都会涉及到Hfile和Meta表,我们依次看...

  • 【2019-07-10】Hbase性能调优

    1.修改regionserver参数的参数:hbase.regionserver.hfile.durable.sy...

  • HBase Compaction 简介

    随着 HBase 运行一段时间,MemStore 会 flush 生成多个 HFile,根据之前分析的 HBase...

  • HBase Data Block Encoding Types介

    本文翻译自Cloudera HBase官方文档 阅读本文前,请了解一下HFile的格式,对阅读本文会大有裨益. 简...

  • ambari metric启动异常问题记录

    上日志 解决1 卸载重装metric服务,没用metric 自动生成hbase元数据问题和hfile,让hbase...

  • HBase HFile解析(转)

    笔者的HBase最近出了点问题,当执行bulk load以后,再执行Get操作,会导致RegionServer陷入...

  • 如何查看HBase的HFile

    1. 建表并填入测试数据 首先创建表test,并指定一个名为t1的列簇 随意填几条测试数据 2. 查看HFile ...

网友评论

    本文标题:HBase学习 - HFile格式 以及 HFile的读写

    本文链接:https://www.haomeiwen.com/subject/vwneqxtx.html