美文网首页
HBase系列1-HBase简介

HBase系列1-HBase简介

作者: 只是甲 | 来源:发表于2022-01-15 20:15 被阅读0次

    一. HBase 介绍

      Apache HBase是一个开源的、分布式的、版本化的、非关系型的数据库,它模仿了Chang等人的谷歌的Bigtable:结构化数据的分布式存储系统。就像Bigtable利用谷歌文件系统提供的分布式数据存储一样,Apache HBase在Hadoop和HDFS的基础上提供了类似Bigtable的能力。

    二. HBase 数据模型

      逻辑上,HBase 的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从HBase 的底层物理存储结构(K-V)来看,HBase 更像是一个multi-dimensional map。

    2.1 HBase逻辑结果

    image.png

    2.2 HBase 物理存储结构

    image.png

    2.3 数据模型

    1. Name Space
      命名空间,类似于关系型数据库的DatabBase 概念,每个命名空间下有多个表。HBase有两个自带的命名空间,分别是hbase 和default,hbase 中存放的是HBase 内置的表,default 表是用户默认使用的命名空间。

    2. Region
      类似于关系型数据库的表概念。不同的是,HBase 定义表时只需要声明列族即可,不需要声明具体的列。这意味着,往HBase 写入数据时,字段可以动态、按需指定。因此,和关系型数据库相比,HBase 能够轻松应对字段变更的场景。

    3. Row
      HBase 表中的每行数据都由一个RowKey 和多个Column(列)组成,数据是按照RowKey的字典顺序存储的,并且查询数据时只能根据RowKey 进行检索,所以RowKey 的设计十分重要。

    4. Column
      HBase 中的每个列都由Column Family(列族)和Column Qualifier(列限定符)进行限
      定,例如info:name,info:age。建表时,只需指明列族,而列限定符无需预先定义。

    5. Time Stamp
      用于标识数据的不同版本(version),每条数据写入时,如果不指定时间戳,系统会
      自动为其加上该字段,其值为写入HBase 的时间。

    6. Cell
      由{rowkey, column Family:column Qualifier, time Stamp} 唯一确定的单元。cell 中的数据是没有类型的,全部是字节码形式存储。

    三. HBase 基本架构

    image.png

    架构角色:

    1. Region Server
      Region Server 为 Region 的管理者,其实现类为HRegionServer,主要作用如下:
      1.1) 对于数据的操作:get, put, delete;
      1.2) 对于Region 的操作:splitRegion、compactRegion。

    2. Master
      Master 是所有Region Server 的管理者,其实现类为HMaster,主要作用如下:
      1.1) 对于表的操作:create, delete, alter
      1.2) 对于RegionServer 的操作:分配regions 到每个RegionServer,监控每个RegionServer的状态,负载均衡和故障转移。

    3. Zookeeper
      HBase 通过Zookeeper 来做Master 的高可用、RegionServer 的监控、元数据的入口以及集群配置的维护等工作。

    4. HDFS
      HDFS 为HBase 提供最终的底层数据存储服务,同时为HBase 提供高可用的支持。

    相关文章

      网友评论

          本文标题:HBase系列1-HBase简介

          本文链接:https://www.haomeiwen.com/subject/cbalqrtx.html