美文网首页
四、HBase客户端

四、HBase客户端

作者: loukey_j | 来源:发表于2020-01-13 13:55 被阅读0次

1、通过Configuration初始化集群Connection

1.1、Connction维持了客户端到整个HBase集群的链接,如一个HBase集群有2个Master、5个RegionServer,那么一般来说整个Connection会维持一个到Active Master的TCP连接和5个到ReginonServer的TCP链接。

1.2、通常一个进程只需要为一个独立的集群建立一个Connection即可,并不需要建立连接池。

1.3、Connection还缓存了访问的Meta信息,后续的大部分请求都可以通过缓存的Meta信息定位到对应的Region Server。

2、通过Connection初始化Table

2.1、Table是一个非常轻量级的对象,它所使用的连接资源、配置信息、线程池、Meta缓存等都来自于Connection。

2.2、由同一个Connection创建的多个Table,都会共享连接、配置信息、线程池、Meta缓存这些资源

2.3、在branch-1以及之前的版本中,Table并不是线程安全的类,所以不建议在多个线程中使用同一个Table实例。在HBase 2.00及之后,Table已经实现了线程安全。

2.4、由于Table是一个非常轻量级的对象,所以可以通过Connection为每个请求创建一个Table,但是记住,在该请求执行完毕之后需要关闭Table资源。

3、hbase:meta

3.1、hbase:meta用来保存整个集群的region信息

3.2、hbase:meta在HBase中保证始终只有一个Region,这是为了确保meta表多次操作的原子性,因为HBase本质上只支持Region级别的事务<所谓Region级别的事务是指:当多个操作落在同一个Region内时,HBase能保证这一批操作执行的原子性。如果多个操作分散在不同的Region,则无法保证这批操作的原子性>

3.3、hbase:meta的一行就对应一个Region. 它的rowkey主要由TableName、StartRow、TimeStamp、EncodeName、标识这个Region是属于哪个表,表Rowkey的起始行以及Region的创建时间戳

3.4、hbase:meta只有一个列簇<info>他有4列,info:regioninfo、info:seqnumDuringOpen、info:server、info:serverstartcode,表示这个表rowkey的起始位置,region落在哪个RegionServer上以及所在RegionServer的启动时间戳

4、HBase超时参数设置

hbase.rpc.timeout:表示单次RPC请求的超时时间,默认是60 000ms。

hbase.clinet.retries.number:最多允许发生多少次RPC重试操作默认是35次。

hbase.clinet.pause:表示连续两次RPC重试之间的休眠时间,默认是100ms。重试休眠时间是按照随机退避算法设计的。也就是重试次数越多,休眠间隔时间就会越来越长。按照默认的重试次数35,则可能长期卡在休眠和重试两个步骤中

hbase.clinet.operation.timeout:表示单次API的超时时间,默认值为1 200 000ms.一次API可能会有多次RPC重试,这个参数是API操作的总超时。

5、CAS<checkAndPut、inCrementColumnValue>操作是Region级别串行执行的,吞吐受限,在HBase 2.x版本已调整设计,对于同一个Region内部的不同行可以并行执行CAS,这样大大提交了Region内部的CAS吞吐

6、Filter使用避坑指南

6.1、PrefixFilter 前缀过滤

低效使用方式:

Scan scan = new Scan();

scan.setFilter(new PrefixFillter(Bytes.toBytes("def")));

这个Scan虽然能得到预期的效果,但是并不高效,因为对于rowKey在区间(-∞,def)的数据,会一条条扫描,发现前缀不为def,就读下一行,直到找到第一个rowkey为def的行为止

高效使用方式:

Scan scan = new Scan();

scan.setStartRow(Bytes.toBytes("def"));

scan.setFilter(new PrefixFillter(Bytes.toBytes("def")));

增加了一个startRow。RegionServer发现Scan设置了startRow,首先会寻址定位到startRow。这样就跳过了大量的(-∞,def)的数据。

最高效的使用方式:

Scan scan = new Scan();

scan.setStartRow(Bytes.toBytes("def"));

scan.setStopRow(Bytes.toBytes("deg"));

将PrefixFilter直接展开,扫描[def,deg)区间的数据,这样效率是最高的。

6.2、PageFilter:表有5个Region起始key为(-∞,1)、[1,2)、[2,3)、[3,4)、[4,+∞)每个Region 都有超过100条数据

错误的使用方式:

Scan scan = new Scan();

scan.setStartRow(Bytes.toBytes("1"));

scan.setStopRow(Bytes.toBytes("3"));

scan.setFilter(new PageFilter(100))

这样写得出来的分页每页数据就会有200 条。但是明明设置了分页每页条数是100。原因是,它需要scan 2个Region.scan从一个region切换到另一个region之前的那个Filter的内部状态就无效了,新的region内部用的是一个全新的Filter.Filter计数器被清零。Filter不是全局的, 所以它分别从2个region各查了100 条,总共200 条返回。

正确的使用方式:

如果想实现分页功能,可以不通过Filter而直接通过limit来实现。

Scan scan = new Scan();

scan.setStartRow(Bytes.toBytes("1"));

scan.setStopRow(Bytes.toBytes("3"));

scan.setLimit(100);

所以对于用户来说,正常情况下PageFilter并没有太多的存在价值

6.3、SingleColumnValueFilter

使用方式:

Scan scan = new Scan();

SingleColumnValueFilter scvf = new  SingleColumnValueFilter(Bytes.toBytes("family"),Bytes.toBytes("qualifier"),

CompareOp.EQUAL,Bytes.toBytes("value"));

scan.setFilter(scvf);

表面上是将列簇为family,列为qualifier,值为value的cell返回给用户,但事实上那些不包含family:qualifier的行也会默认返回给用户,如果用户不希望读取那些不包含family:qualifier的数据,需要设计如下scan

Scan scan = new Scan();

SingleColumnValueFilter scvf = new  SingleColumnValueFilter(Bytes.toBytes("family"),Bytes.toBytes("qualifier"),

CompareOp.EQUAL,Bytes.toBytes("value"));

scvf.setFiterIfMisssing(true);

scan.setFilter(scvf);

另外当SingleColumnValueFilter设置为filterIfMisssing为true时,和其他Filter组合成FilterList时可能导致返回的结果不正确。建议是不要使用SingleColumnValueFilter与其他Filter组合成FilterList。 直接指定列,通过ValueFilter替换掉SingleColumnValueFilter

Scan scan = new Scan();

ValueFilter vf = new ValueFilter(CompareOf.EQUAL,new BinaryComparatoe(Bytes.toBytes("value")));

scan.addColum(Bytes.toBytes("family"),Bytes.toBytes("qualifier"));

scan.setFilter(vf);

7、HBase写入方式对比

7.1、table.put(Put):

每次执行都会执行一次RPC和磁盘持久化,写入吞吐受限于磁盘带宽、网络带宽,不会有数据丢失能保证put操作的原子性。

7.2、table.put(List<Put>):

客户端打包一批put提交,执行一次RPC,一次WAL。相比第一种省略了多次往返的RPC和磁盘持久化。但是时间会变长。如果打包的put分布在多个Region。则不能保证这一批put的原子性,应为HBase不支持跨Region的多行事务,失败的put会经历若干次重试。

7.3、bulk load:

将待写入的数据生成HFile,然后采用bulk load方式将HFile直接加载到对于的Region的CF内。这是一种完全离线的快速写入方式。它应该是最快的批量写入手段,同时不会对线上的集群产生巨大压力,在load完HFile之后,CF内部会进行Compaction,但是Compaction是异步的且可以限速,所以bulk load对线上集群非常友好。

使用场景举例:

7.3.1、两个集群互为主备,其中一个集群由存在数据丢失,想通过另一备份集群的数据来修复异常集群。最快的方式是:把备份集群的数据导一个快照拷贝到异常集群,然后通过copyTable工具扫快照生成HFile,然后bulk load 到异常集群,完成数据的修复。

7.3.2、当用户写入大量数据后,发现选择的split keys不合适,想重新选择split keys见表,这时也可以通过 snapshort生成HFile再bulk load的方式生成新表。

相关文章

  • HBase系列 - HBase Shell操作

    HBase Shell 基本操作 进入HBase客户端命令行bin/hbase shell 查看帮助命令hbase...

  • 四、HBase客户端

    1、通过Configuration初始化集群Connection 1.1、Connction维持了客户端到整个HB...

  • 07. HBase数据存取流程解析

    客户端数据存取流程 客户端与HBase系统的写入交互阶段 用户提交put请求后,HBase客户端会将put请求添加...

  • 3、HBase Shell操作

    基本操作 进入HBase客户端命令行[hadoop@hadoop-100 hbase]$ cd bin/hbase...

  • HBaseAPI应用与优化

    HBase API 客户端操作 HBaseAPI 客户端操作 代码: Hbase协处理器 协处理器概述 官方地址[...

  • HBase优化四——HTable优化

    HTable是HBase客户端与HBase服务端通讯的Java API对象,客户端可以通过HTable对象与服务端...

  • HBase设置外网访问集群

    HBase集群搭建在内网,现在需要从外网访问HBase,对数据进行读写。 首先,需要明白HBase客户端连接HBa...

  • HBase客户端API-表管理

    上一篇博客说了怎样搭建HBase环境,今天说说怎样使用 HBase 的客户端 API 来操作 HBase 中的数据...

  • Hbase客户端API(1)

    Hbase的主要客户端接口通过org.apache.hadoop.hbase.client包中的HTable类来实...

  • HBase的Bulkload

    1. 在HBase客户端建立一张目标表: hbase(main):003:0> create 'bulkload_...

网友评论

      本文标题:四、HBase客户端

      本文链接:https://www.haomeiwen.com/subject/rjggactx.html