美文网首页
HBase 体系结构

HBase 体系结构

作者: 杜超_36bf | 来源:发表于2020-01-11 15:52 被阅读0次
    Hbase 体系结构

    从图中可以看出Hbase是由Client、Zookeeper、Master、HRegionServer、HDFS等几个组建组成,下面来介绍一下几个组建的相关功能:

    Client

    Client 提供了shell 命令接口、原生Java API编程接口、Thrift/Rest API 编程接口、MapReduce 编程接口。

    Thrift/Rest API 编程接口:支持非Java的上层业务需求

    MapReduce 编程接口:主要用于批量数据导入以及批量数据读取

    客户端访问数据行前,通过元数据表定为目标数据所在的 RegionServer,之后才会发送请求至该 RegionServer,同时将元数据缓存本地;后续由于 集群宕机或是负载均衡 导致数据分片迁移,客户端重试失败后,会拉取最新的元数据,更新本地缓存。

    Zookeeper

    实现Master 高可用:选举Master

    管理系统核心元数据:比如管理正常工作的RegionServer集合,保存 hbase:meta 所在的 RegionServer

    参与RegionServer宕机恢复:心跳检测

    实现分布式锁:对表对管理操作(比如alter),需要先加锁,防止其他用户操作管理同一张表

    Master

    处理用户的各种管理请求:建表、修改表、权限操作、切分表、合并数据分片以及Compaction 等

    管理集群中所有 RegionServer:包括RegionServer 中 Region 的负载均衡、RegionServer的宕机恢复以及Region的迁移

    清理过期日志以及文件:每隔一段时间检查HDFS 中 HLog 是否过期、HFile 是否已经被删除,并在过期之后将其删除

    RegionServer

    RegionServer 结构图

    RegionServer直接对接用户的读写请求,是真正的“干活”的节点。它的功能概括如下: 管理master为其分配的Region 处理来自客户端的读写请求 负责和底层HDFS的交互,存储数据到HDFS 负责Region变大以后的拆分 负责Storefile的合并工作

    WAL(HLog):两个核心作用

    一、用于实现数据的高可用性,数据首先顺序写入HLog,再写入缓存,再异步刷新落盘

    二、实现HBase 集群间主从复制,通过回放主集群推送过来的HLog日志实现

    BlockCache:

    一系列Block 块,默认64K,物理上相邻的多个KV 数据组成

    利用了空间局部性和时间局部性原理提升热点读的性能,当前两种实现 LRUBlockCache 和 BucketCache,前者实现相对简单,后者GC优化方面明显提升

    Region:

    数据表的一个分片,超过一定阈值就会“水平切分”,分裂为 两个;是集群负载均衡的基本单位

    一个region 由 一个或者多个 Store 构成,Store 个数取决于表中列簇的个数,多少个列簇对应多少个 store。

    HBase中,每个列簇的数据都集中存放在一起形成一个存储单元Store,建议将具有相同IO特性的数据设置在同一个列簇(Store)中

    Store

    由一个 MemStore 和 一或多个HFile 组成。MemStore 成为写缓存,用户写入数据时,首先写到MemStore,当MemStore 写满后(超过阈值,默认128M)异步将数据flush 成一个HFlie。

    当HFile超过一定阈值后,执行Compact操作,将小文件通过一定策略合并成一或多个大文件

    HDFS

    HDFS为Hbase提供最终的底层数据存储服务,同时为Hbase提供高可用(Hlog存储在HDFS)的支持,具体功能概括如下: 提供元数据和表数据的底层分布式存储服务 数据多副本,保证的高可靠和高可用性

    相关文章

      网友评论

          本文标题:HBase 体系结构

          本文链接:https://www.haomeiwen.com/subject/joivactx.html