大数据开发：HBase的数据分布模型简介

作者: 成都加米谷大数据 | 来源:发表于2021-07-07 17:58 被阅读0次

大数据开发：HBase的数据分布模型简介
HBase
HBase - 总结
java大数据之hbase
NoSQL-HBase
一、HBaes介绍
分布式数据库HBase以及HBase的单机模式，伪分布式模式和完
Hbase原理分享
Hbase原理分享
Hadop之Hbase

Hadoop生态当中，HDFS作为分布式文件系统，而系统原生的数据存储，则是由分布式数据库Hbase完成。Hbase在数据存储上，一个重要的细节是数据分片，今天的大数据开发学习分享，我们就主要来讲讲HBase的数据分布模型。

HBase的数据分布模型

HBase的数据分片按表进行，以行为粒度，基于rowkey范围进行拆分，每个分片称为一个region。一个集群有多张表，每张表划分为多个region，每台服务器服务很多region。所以，HBase的服务器称为RegionServer，简称RS。RS与表是正交的，即一张表的region会分布到多台RS上，一台RS也会调度多张表的region。如下图所示：

“以行为粒度”，意思是行是region划分的最小单位，即一行数据要么属于A region，要么属于Bregion，不会被拆到两个region中去。（对行进行拆分的方式是“垂直分库”，通常只能在业务层面进行，HBase是水平拆分）

HBase的副本机制是通过通过底层的HDFS实现的。所以，HBase的副本与分片是解耦的，是存储计算分离的。这使得region可以在RS之间灵活的移动，而不需要进行数据迁移，这赋予了HBase秒级扩容的能力和极大的灵活性。

对于单个表而言，一个“好”的数据分布，应该是每个region的数据量大小相近，请求量(吞吐)接近，每台机器调度的region数量大致相同。这样，这张表的数据和访问能够均匀的分布在整个集群中，从而得到最好的资源利用率和服务质量，即达到负载均衡。当集群进行扩容、缩容时，我们希望这种“均衡”能够自动保持。如果数据分布未能实现负载均衡，则负载较高的机器很容易称为整个系统的瓶颈，这台机器的响应慢，可能导致客户端的大部分线程都在等待这台机器返回，从而影响整体吞吐。所以，负载均衡是region划分和调度的重要目标。

这里涉及到3层面的负载均衡问题：

数据的逻辑分布：即region划分/分布，是rowkey到region的映射问题

数据的物理分布：即region在RS上的调度问题

访问的分布：即系统吞吐(请求)在各个RS上的分布问题，涉及数据量和访问量之间的关系，访问热点等。

可见，一行数据的分布(找到一行数据所在的RS)，存在2个层级的路由：一是rowkey到region的路由，二是region到RS的路由。这一点是HBase能够实现灵活调度、秒级扩容的关键。

基于rowkey范围的region划分

首先，我们来看数据的逻辑分布，即一张表如何划分成多个region。

region划分的粒度是行，region就是这个表中多个连续的行构成的集合。行的唯一标识符是rowkey，所以，可以将region理解为一段连续分布的rowkey的集合。所以，称这种方式为基于rowkey范围的划分。

一个region负责的rowkey范围是一个左闭右开区间，所以，后一个region的start key是前一个region的end key。注意，第一个region是没有start key的，最后一个region是没有end key的。这样，这个表的所有region加在一起就能覆盖任意的rowkey值域。如下图所示：

上图中，region1是第一个region，没有startKey，region3是最后一个region，没有endKey。图中的region分布是比较均匀的，即每个region的行数是相当的，那么，这个分布是怎么得到的呢？或者说，region的边界是如何确定的？

一般来说，region的生成有3种方式：

建表时进行预分区：通过对rowkey进行预估，预先划分好region

region分裂：手工分裂，或达到一定条件时自动分裂(如region大小超过一个阈值)

region合并：手工合并

建表时如果未显式指定region分布，HBase就会只创建一个region，这个region自然也只能由一台机器进行调度(后面会讨论一个region由多个RS调度的情况)。那这个region的吞吐上限就是单机的吞吐上限。如果通过合理的预分区将表分成8个region，分布在8台RS上，那整表的吞吐上限就是8台机器的吞吐上限。

所以，为了使表从一开始就具备良好的吞吐和性能，实际生产环境中建表通常都需要进行预分区。但也有一些例外，比如无法预先对rowkey范围进行预估，或者，不容易对rowkey范围进行均匀的拆分，此时，也可以创建只有一个region的表，由系统自己分裂，从而逐渐形成一个“均匀的”region分布。

比如一张存储多个公司的员工信息的表，rowkey组成是orgId+userid，其中orgId是公司的id。由于每个公司的人数是不确定的，同时也可能是差别很大的，所以，很难确定一个region中包含几个orgId是合适的。此时，可以为其创建单region的表，然后导入初始数据，随着数据的导入进行region的自动分裂，通常都能得到比较理想的region分布。如果后续公司人员发生较大的变化，也可以随时进行region的分裂与合并，来获得最佳分布。

关于大数据开发学习，HBase的数据分布模型，以上就为大家做了大致的讲解了。Hbase在Hadoop生态当中，作为原生组件之一，重要性不言而喻，把Hbase内部细节理解透彻，非常关键。