从图中可以看出Hbase是由Client、Zookeeper、Master、HRegionServer、HDFS等几个组建组成,下面来介绍一下几个组建的相关功能:
Client
Client 提供了shell 命令接口、原生Java API编程接口、Thrift/Rest API 编程接口、MapReduce 编程接口。
Thrift/Rest API 编程接口:支持非Java的上层业务需求
MapReduce 编程接口:主要用于批量数据导入以及批量数据读取
客户端访问数据行前,通过元数据表定为目标数据所在的 RegionServer,之后才会发送请求至该 RegionServer,同时将元数据缓存本地;后续由于 集群宕机或是负载均衡 导致数据分片迁移,客户端重试失败后,会拉取最新的元数据,更新本地缓存。
Zookeeper
实现Master 高可用:选举Master
管理系统核心元数据:比如管理正常工作的RegionServer集合,保存 hbase:meta 所在的 RegionServer
参与RegionServer宕机恢复:心跳检测
实现分布式锁:对表对管理操作(比如alter),需要先加锁,防止其他用户操作管理同一张表
Master
处理用户的各种管理请求:建表、修改表、权限操作、切分表、合并数据分片以及Compaction 等
管理集群中所有 RegionServer:包括RegionServer 中 Region 的负载均衡、RegionServer的宕机恢复以及Region的迁移
清理过期日志以及文件:每隔一段时间检查HDFS 中 HLog 是否过期、HFile 是否已经被删除,并在过期之后将其删除
RegionServer
RegionServer 结构图RegionServer直接对接用户的读写请求,是真正的“干活”的节点。它的功能概括如下: 管理master为其分配的Region 处理来自客户端的读写请求 负责和底层HDFS的交互,存储数据到HDFS 负责Region变大以后的拆分 负责Storefile的合并工作
WAL(HLog):两个核心作用
一、用于实现数据的高可用性,数据首先顺序写入HLog,再写入缓存,再异步刷新落盘
二、实现HBase 集群间主从复制,通过回放主集群推送过来的HLog日志实现
BlockCache:
一系列Block 块,默认64K,物理上相邻的多个KV 数据组成
利用了空间局部性和时间局部性原理提升热点读的性能,当前两种实现 LRUBlockCache 和 BucketCache,前者实现相对简单,后者GC优化方面明显提升
Region:
数据表的一个分片,超过一定阈值就会“水平切分”,分裂为 两个;是集群负载均衡的基本单位
一个region 由 一个或者多个 Store 构成,Store 个数取决于表中列簇的个数,多少个列簇对应多少个 store。
HBase中,每个列簇的数据都集中存放在一起形成一个存储单元Store,建议将具有相同IO特性的数据设置在同一个列簇(Store)中
Store
由一个 MemStore 和 一或多个HFile 组成。MemStore 成为写缓存,用户写入数据时,首先写到MemStore,当MemStore 写满后(超过阈值,默认128M)异步将数据flush 成一个HFlie。
当HFile超过一定阈值后,执行Compact操作,将小文件通过一定策略合并成一或多个大文件
HDFS
HDFS为Hbase提供最终的底层数据存储服务,同时为Hbase提供高可用(Hlog存储在HDFS)的支持,具体功能概括如下: 提供元数据和表数据的底层分布式存储服务 数据多副本,保证的高可靠和高可用性
网友评论