美文网首页hbase
HBase学习笔记

HBase学习笔记

作者: zhglance | 来源:发表于2020-03-08 21:34 被阅读0次

    1.HBase简介

    HBase是Apache下的基于Hadoop的高可靠性,高性能,面向列和可伸缩的Key-Value型的分布式的列式存储集群。
    在CAP理论中:

    Consistency(一致性)
    Availability(可用性)
    Partition tolerance(分区容错性)

    Hbase选择了CP,即一致性和分区容错性,舍弃了可用性。Hbase不想Redis性能那么高,但是在数据量很大时,Hbase的性能下降的不明显。Hbase不适合做数据分析(如数据联查,聚合和排序等)且数据量比较少的情况(如没有达到千万级别时)。

    注意问题:
    1.Hbase不支持表联查;
    2.Hbase部分支持ACID(原子性,一致性,隔离性,持久性)

    1.1 HBase基本架构:

    Hbase

    说明:

    Master:

    维护表结构信息,主要负责RegionServer的协调(如建表,删表,移动Region和合并等需要跨RegionServer的操作),Master宕机之后,Hbase仍然可以访问RegionServer的数据,但是无法建表删表等。

    RegionServer:

    RegionServer主要保存Region(一段数据的集合)存储数据,实际数据直接存储在HDFS上。

    一个RegionServer上根据数据量可能会有多个Region,Hbase在进行数据平衡的时候,一个Region可能会被迁移到另一台RegionServer上。

    Zookeeper:

    相当于的RegionServer管理者,记录那些数据段保存在哪个RegionServer上。Client先与Zookeeper建立连接,查出数据在哪个RegionServer上,然后再链接RegionServer,执行CRUD。

    1.2 HBase存储架构:

    一个Region是多行(row)数据的集合,在Region是按照行的row key字典进行排序。

    列(column):

    存储的基本单位,每行(row)对应的列可能不同,不需要建表的时候指定列;

    行键(row key):

    用来唯一标定一行数据,类似于Map中的key;

    列族(column family):

    Hbase的列是不固定的,但是需要确定列族,即建表时需要指定列族,Hbase会把相同列族的列尽量存放到通过一台机器上。列族不应该太多,否则影响性能;

    版本号(version):

    Hbase的一个列会存储多个版本的值,多个版本的值保存在多个单元格内,多个版本之间使用版本号来区分。如果查询时不指定版本号,那么返回最新的版本号数据为返回结果。

    单元格(cell):

    Hbase的每次存储都必须知道数据要被存储到哪个单元格,每个版本就称为一个单元格,单元格由(表,列族,行,列)来唯一确定。

    表空间(table name space):

    主要用于对表进行分组,对不同的分组设置不同的管理配置。 Hbase默认有两个表空间,Hbase系统表空间,default默认表空间。

    2.HBase进阶:

    Region.png

    说明:

    1.WAL(Write-Ahead Log):

    WAL解决宕机之后的数据操作的恢复问题,
    当修改Region中的数据时,先把数据写入WAL中(底层是HDFS),然后数据先写入MemStore中,等数据达到一定量时,flush到Hfile中,如果flush之前,系统宕机或者重启,会导致MemStore中数据丢失,可以通过WAL恢复数据。

    WAL开启会对性能有影响,WAL支持同步和异步方式,异步默认flush时间是1秒,系统宕机会导致数据丢失,但是提高WAL的性能。

    2.Store:

    一个Region中包含多个Store实例,一个Store对应一个列族的数据,一个Store有一个MemStore;

    3.HFile:

    Hfile存储在HDFS上的,每次MemStore的flush都生成一个新的HFile文件,HFile不可修改。Hbase会对HFile进行周期性合并,合并的时候忽略掉Deleted的数据。

    4.MemStore

    由于HDFS支持创建,追加和删除,但是不支持更改,这样对数据的顺序写入带来的困难(顺序写入写入提高性能),MemStore将数据安装rowkey进行排序,提高读写性能。MemStore使用了LSM树结构(一种B+树的改进)来存储数据;

    避免段时间存储在MemStore中的数据flush到磁盘。

    Hbase是建立在不可修改的HDFS上,其增删改都是通过新增一条数据时间的,只是修改时新增一条版本号更大数据,删除时增加一个没有Value的数据,类型为Delete(成为墓碑标记)。墓碑标记数据可能和数据保存的不是一个位置,毕竟大概率不是新增一条数据,然后再删除。在根据RowKey读取数据时,StoreScanner并不是扫描到数据(即有MemStore,也有HFile)后立即返回,而是直到被扫描的数据大于给出的限定条件位置,避免读取到脏数据。

    Hbase的写入顺序为:

    Client --> WAL --> MemStore --> HFile

    Hbase的读取顺序为:

    Client --> BlockCache --> MemStore --> HFile

    二层查询架构.png

    1.Client从Zookeeper中的/hbase/meta-region-server节点查询到哪台RegionServer上有hbase:meta表,Client会缓存hbase:meta表,下次不再需要加载hbase:meta表了;
    2.Client从上一步查询到的RegionServer中查询到rowkey所在哪个RegionServer的哪个Region上;
    3.Client连接上一步获取的RegionServer,然后进行scan操作。

    3.HBase优化:

    3.1 JVM的优化:

    3.2 Region的拆分和合并:

    3.3 WAL性能的考量:

    3.4 BlockCache:

    相关文章

      网友评论

        本文标题:HBase学习笔记

        本文链接:https://www.haomeiwen.com/subject/nsnjdhtx.html