美文网首页HBase大数据开发
大数据开发:HBase的数据分布模型简介

大数据开发:HBase的数据分布模型简介

作者: 成都加米谷大数据 | 来源:发表于2021-07-07 17:58 被阅读0次

Hadoop生态当中,HDFS作为分布式文件系统,而系统原生的数据存储,则是由分布式数据库Hbase完成。Hbase在数据存储上,一个重要的细节是数据分片,今天的大数据开发学习分享,我们就主要来讲讲HBase的数据分布模型。

HBase的数据分布模型

HBase的数据分片按表进行,以行为粒度,基于rowkey范围进行拆分,每个分片称为一个region。一个集群有多张表,每张表划分为多个region,每台服务器服务很多region。所以,HBase的服务器称为RegionServer,简称RS。RS与表是正交的,即一张表的region会分布到多台RS上,一台RS也会调度多张表的region。如下图所示:

“以行为粒度”,意思是行是region划分的最小单位,即一行数据要么属于A region,要么属于Bregion,不会被拆到两个region中去。(对行进行拆分的方式是“垂直分库”,通常只能在业务层面进行,HBase是水平拆分)

HBase的副本机制是通过通过底层的HDFS实现的。所以,HBase的副本与分片是解耦的,是存储计算分离的。这使得region可以在RS之间灵活的移动,而不需要进行数据迁移,这赋予了HBase秒级扩容的能力和极大的灵活性。

对于单个表而言,一个“好”的数据分布,应该是每个region的数据量大小相近,请求量(吞吐)接近,每台机器调度的region数量大致相同。这样,这张表的数据和访问能够均匀的分布在整个集群中,从而得到最好的资源利用率和服务质量,即达到负载均衡。当集群进行扩容、缩容时,我们希望这种“均衡”能够自动保持。如果数据分布未能实现负载均衡,则负载较高的机器很容易称为整个系统的瓶颈,这台机器的响应慢,可能导致客户端的大部分线程都在等待这台机器返回,从而影响整体吞吐。所以,负载均衡是region划分和调度的重要目标。

这里涉及到3层面的负载均衡问题:

数据的逻辑分布:即region划分/分布,是rowkey到region的映射问题

数据的物理分布:即region在RS上的调度问题

访问的分布:即系统吞吐(请求)在各个RS上的分布问题,涉及数据量和访问量之间的关系,访问热点等。

可见,一行数据的分布(找到一行数据所在的RS),存在2个层级的路由:一是rowkey到region的路由,二是region到RS的路由。这一点是HBase能够实现灵活调度、秒级扩容的关键。

基于rowkey范围的region划分

首先,我们来看数据的逻辑分布,即一张表如何划分成多个region。

region划分的粒度是行,region就是这个表中多个连续的行构成的集合。行的唯一标识符是rowkey,所以,可以将region理解为一段连续分布的rowkey的集合。所以,称这种方式为基于rowkey范围的划分。

一个region负责的rowkey范围是一个左闭右开区间,所以,后一个region的start key是前一个region的end key。注意,第一个region是没有start key的,最后一个region是没有end key的。这样,这个表的所有region加在一起就能覆盖任意的rowkey值域。如下图所示:

上图中,region1是第一个region,没有startKey,region3是最后一个region,没有endKey。图中的region分布是比较均匀的,即每个region的行数是相当的,那么,这个分布是怎么得到的呢?或者说,region的边界是如何确定的?

一般来说,region的生成有3种方式:

建表时进行预分区:通过对rowkey进行预估,预先划分好region

region分裂:手工分裂,或达到一定条件时自动分裂(如region大小超过一个阈值)

region合并:手工合并

建表时如果未显式指定region分布,HBase就会只创建一个region,这个region自然也只能由一台机器进行调度(后面会讨论一个region由多个RS调度的情况)。那这个region的吞吐上限就是单机的吞吐上限。如果通过合理的预分区将表分成8个region,分布在8台RS上,那整表的吞吐上限就是8台机器的吞吐上限。

所以,为了使表从一开始就具备良好的吞吐和性能,实际生产环境中建表通常都需要进行预分区。但也有一些例外,比如无法预先对rowkey范围进行预估,或者,不容易对rowkey范围进行均匀的拆分,此时,也可以创建只有一个region的表,由系统自己分裂,从而逐渐形成一个“均匀的”region分布。

比如一张存储多个公司的员工信息的表,rowkey组成是orgId+userid,其中orgId是公司的id。由于每个公司的人数是不确定的,同时也可能是差别很大的,所以,很难确定一个region中包含几个orgId是合适的。此时,可以为其创建单region的表,然后导入初始数据,随着数据的导入进行region的自动分裂,通常都能得到比较理想的region分布。如果后续公司人员发生较大的变化,也可以随时进行region的分裂与合并,来获得最佳分布。

关于大数据开发学习,HBase的数据分布模型,以上就为大家做了大致的讲解了。Hbase在Hadoop生态当中,作为原生组件之一,重要性不言而喻,把Hbase内部细节理解透彻,非常关键。

相关文章

  • 大数据开发:HBase的数据分布模型简介

    Hadoop生态当中,HDFS作为分布式文件系统,而系统原生的数据存储,则是由分布式数据库Hbase完成。Hbas...

  • HBase

    HBase定义 HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。 HBase结构 数据模型 1...

  • HBase - 总结

    一、HBase简介 1.1 定义 1.2 HBase数据模型 1.2.1 HBase逻辑结构 1.2.2 HBas...

  • java大数据之hbase

    一、HBase简介 1.1 HBase是什么 HBase是一个分布式的、面向列的开源数据库,Hadoop 数据库。...

  • NoSQL-HBase

    HBase简介 Apache Hbase是Hadoop数据库,一个分布式、可扩展、大数据存储。当你需要随机地实时读...

  • 一、HBaes介绍

    1.1、HBase简介 HBase是一个分布式的、面向列的开源数据库,它是一个适合于非结构化数据存储的数据库(No...

  • 分布式数据库HBase以及HBase的单机模式,伪分布式模式和完

    HBase简介 HBase是一个分布式的,面向列,可扩展的大数据存储的开源数据库,该技术来源于 Fay Chang...

  • Hbase原理分享

    一、HBase简介 Hbase是什么HBase是一种构建在HDFS之上的分布式、面向列、多版本、非关系型的数据库。...

  • Hbase原理分享

    一、HBase简介 Hbase是什么 HBase是一种构建在HDFS之上的分布式、面向列、多版本、非关系型的数据库...

  • Hadop之Hbase

    介绍 Hbase是非关系型分布式数据库。 Hbase区分与传统关系数据库的特点 数据类型:Hbase采用简单的数据...

网友评论

    本文标题:大数据开发:HBase的数据分布模型简介

    本文链接:https://www.haomeiwen.com/subject/hrcaultx.html