大数据 - （六-2）- HBase

作者: 啦啦啦喽啰 | 来源:发表于2020-08-27 13:58 被阅读0次

大数据 - （六-2）- HBase
使用命令行创建和使用HBase数据库
HBase
HBase架构介绍
面试题汇总：HBASE
一条数据的HBase之旅，简明HBase入门教程-开篇
Hadoop生态圈
hbase与mapduce集成
code搬运工_关于Phoenix的Secondary Inde
分布式NoSQL数据库HBase介绍

什么是HBase？

是⼀个分布式、海量、列式、⾮关系型 数据库系统，可以提供超⼤规模数据集的实时随机读写

列存储的优点：

1）减少存储空间占⽤。
2）⽀持好多列

HBase的特点

海量存储：底层基于HDFS存储海量数据
列式存储：HBase表的数据是基于列族进⾏存储的，⼀个列族包含若⼲列
极易扩展：底层依赖HDFS，当磁盘空间不⾜的时候，只需要动态增加DataNode服务节点就可以
⾼并发：⽀持⾼并发的读写请求
稀疏：稀疏主要是针对HBase列的灵活性，在列族中，你可以指定任意多的列，在列数据为空的情况下，是不会占⽤存储空间的。
数据的多版本：HBase表中的数据可以有多个版本值，默认情况下是根据版本号去区分，版本号就是插⼊数据的时间戳
数据类型单⼀：所有的数据在HBase中是以字节数组进⾏存储

HBase应用场景

HBase适合海量明细数据的存储，并且后期需要有很好的查询性能（单表超千万、上亿，且并发要求⾼）

HBase数据模型

HBase中的每一张表就是所谓的BigTable。
BigTable会存储一系列的行记录，行记录有三个基本类型的定义：
- RowKey：是行在BigTable中的唯一标识
- TimeStamp：是每一次数据操作对应关联的时间戳，可以看作SVN的版本
- Column：定义为<family>:<label>，通过这两部分可以指定唯一的数据的存储列
  - family：定义和修改需要对HBase进行类似于DB的DDL操作，另一个作用体现在物理存储优化读写操作上，同family的数据物理上保存的会比较接近
  - <label>：不需要定义直接可以使用，这也为动态定制列提供了一种手段

逻辑存储模型

image.png

RowKey：与NoSQL数据库一样，RowKey是用来检索记录的主键
- 访问HBase Table中的行三种方式：
  - 通过单个RowKey访问
  - 通过RowKey的Range
  - 全表扫描
- 注意：
  - RowKey行键可以任意字符串（最大长度64KB，实际应用中长度一般为10-100bytes），在HBase内部RowKey保存为字节数组。
  - 存储时，数据按照RowKey的字典序（byte order）排序存储，设计key时，要充分了解这个特性，将经常一起读取的行存放在一起。
  - 行的一次读写是原子操作（不论一次读写多少列）
列簇：HBase表中的每个列，都归属于某个列簇，列簇是表的schema的一部分（而列不是），必须在使用表之前定义。
- 列名都以列簇作为前缀，例如：courses:history, courses:math都属于 courses这个列簇。
- 访问控制，磁盘和内存的使用统计都是在列簇层面进行的。
- 实际应用中，列簇上的控制权限能帮助我们管理不同类型的应用：我们允许一些应用可以添加新的基本数据
时间戳：HBase中通过row和columns确定的为一个存储单元称为cell。每个cell都保存着同一份数据的多个版本。版本通过时间戳来索引
- 时间戳的类型是64位整型，时间戳可以由HBase在写入时自动赋值，此时时间戳是精确到毫秒的当前系统时间。时间戳也可以由客户显示赋值
Cell：由{row key, column(=+), version}唯一确定的单元
- Cell中的数据是没有类型的，全部是字节码形式存储

HBase整体架构

image.png

HBase 仍然采用Master/Slave架构

Zookeeper：

实现了HMaster的⾼可⽤
保存了HBase的元数据信息，是所有HBase表的寻址⼊⼝
对HMaster和HRegionServer实现了监控

HMaster（Master）：

为HRegionServer分配Region
维护整个集群的负载均衡
维护集群的元数据信息
发现失效的Region，并将失效的Region分配到正常的HRegionServer上

HRegionServer（RegionServer）

负责管理Region
接受客户端的读写数据请求
切分在运⾏过程中变⼤的Region

Region

每个HRegion由多个Store构成，
每个Store保存⼀个列族（Columns Family），表有⼏个列族，则有⼏个Store，
每个Store由⼀个MemStore和多个StoreFile组成，MemStore是Store在内存中的内容，写到⽂件后就是StoreFile。StoreFile底层是以HFile的格式保存。

Hbase环境安装

tar -zxvf hbase-1.3.1-bin.tar.gz -C /opt/servers
mv /opt/servers/hbase-1.3.1 /opt/servers/hbase
# 配置环境变量
export HBASE_HOME=/opt/servers/hbase
export PATH=$PATH:$HBASE_HOME/bin

修改配置⽂件

需要把hadoop中的配置core-site.xml、hdfs-site.xml拷⻉到hbase安装⽬录下的conf⽂件夹中

ln -s /opt/servers/hadoop-2.9.2/etc/hadoop/core-site.xml /opt/servers/hbase/conf/core-site.xml
ln -s /opt/servers/hadoop-2.9.2/etc/hadoop/hdfs-site.xml /opt/servers/hbase/conf/hdfs-site.xml

修改hbase-env.sh

#添加java环境变量
export JAVA_HOME=/opt/servers/jdk1.8
#指定使⽤外部的zk集群
export HBASE_MANAGES_ZK=FALSE

修改hbase-site.xml

<!-- 指定hbase在HDFS上存储的路径 -->
<property>
 <name>hbase.rootdir</name>
 <value>hdfs://os1:9000/hbase</value>
</property>
 <!-- 指定hbase是分布式的 -->
<property>
 <name>hbase.cluster.distributed</name>
 <value>true</value>
</property>
 <!-- 指定zk的地址，多个⽤“,”分割 -->
<property>
 <name>hbase.zookeeper.quorum</name>
 <value>os1:2181,os2:2181,os3:2181</value>
</property>

修改regionservers⽂件

#指定regionserver节点
os1
os2
os3

hbase的conf⽬录下创建⽂件backup-masters (Standby Master)

echo 'os2' > backup-masters

分发hbase⽬录和环境变量到其他节点

HBase集群的启动和停⽌

前提条件：先启动hadoop和zookeeper集群
启动：start-hbase.sh
停⽌：stop-hbase.sh

HBase shell 基本操作

进入hbase客户端

hbase shell

创建⼀张表，包含两个列族

create 'test1', 'base_info', ''
create 'test2', {NAME => 'base_info', VERSIONS => '3'},{NAME => 'extra_info',VERSIONS => '3'}

添加数据操作

put 'test1', 'rk1', 'base_info:name', 'test'
put 'test1', 'rk1', 'base_info:age', 30

查询数据

通过rowkey进⾏查询

get 'test1', 'rk1'

查看rowkey下⾯的某个列族的信息

get 'test1', 'rk1', 'base_info'
get 'test1', 'rk1', 'base_info:name', 'base_info:age'

查看rowkey指定多个列族的信息

get 'test1', 'rk1', 'base_info', 'extra_info'
get 'test1', 'rk1', {COLUMN => ['base_info:name', 'extra_info:address']}

指定rowkey与列值查询

get 'test1', 'rk1', {FILTER => "ValueFilter(=, 'binary:test')"}

指定rowkey模糊查询

get 'test', 'rk1', {FILTER => "(QualifierFilter(=,'substring:e'))"}

查询所有数据

scan 'test1'

列族查询

scan 'test1', {COLUMNS => 'base_info', RAW => true, VERSIONS => 3}

指定rowkey模糊查询

scan 'test1',{FILTER=>"PrefixFilter('rk')"}

更新

put 'test1', 'rk1', 'base_info:name', 'test2'

删除数据和表

指定rowkey以及列名进⾏删除

delete 'test1', 'rk1', 'base_info:name'

删除列族

alter 'test1', 'delete' => 'base_info'

清空表数据

truncate 'test1'

删除表：先disable 再drop

disable 'test1'
drop 'test1'

HBase原理深⼊

HBase读数据流程

image.png

1）⾸先从zk找到meta表的region位置，然后读取meta表中的数据，meta表中存储了⽤户表的region信息
2）根据要查询的namespace、表名和rowkey信息。找到写⼊数据对应的region信息
3）找到这个region对应的regionServer，然后发送请求
4）查找对应的region
5）先从memstore查找数据，如果没有，再从BlockCache上读取
HBase上Regionserver的内存分为两个部分
- ⼀部分作为Memstore，主要⽤来写；
- 另外⼀部分作为BlockCache，主要⽤于读数据；
6）如果BlockCache中也没有找到，再到StoreFile上进⾏读取
- 从storeFile中读取到数据之后，不是直接把结果数据返回给客户端，⽽是把数据先写⼊到BlockCache中，⽬的是为了加快后续的查询；
- 然后在返回结果给客户端。

HBase写数据流程

image.png

1）⾸先从zk找到meta表的region位置，然后读取meta表中的数据，meta表中存储了⽤户表的region信息
2）根据namespace、表名和rowkey信息。找到写⼊数据对应的region信息
3）找到这个region对应的regionServer，然后发送PUT请求
4）把数据分别写到HLog（write ahead log）和memstore各⼀份
5）memstore达到阈值后把数据刷到磁盘，⽣成storeFile⽂件
6）删除HLog中的历史数据

HBase的flush(刷写)及compact(合并)机制

Flush机制

当memstore的⼤⼩超过这个值的时候，会flush到磁盘，默认为128M

<property>
 <name>hbase.hregion.memstore.flush.size</name>
 <value>134217728</value>
</property>

当memstore中的数据时间超过1⼩时，会flush到磁盘

<property>
 <name>hbase.regionserver.optionalcacheflushinterval</name>
 <value>3600000</value>
</property>

HregionServer的全局memstore的⼤⼩，超过该⼤⼩会触发flush到磁盘的操作,默认是堆⼤⼩的40%

<property>
 <name>hbase.regionserver.global.memstore.size</name>
 <value>0.4</value>
</property>

⼿动flush

flush tableName

阻塞机制

Hbase中是周期性的检查是否满⾜以上标准满⾜则进⾏刷写，但是如果在下次检查到来之前，数据疯狂写⼊Memstore中，会触发阻塞机制，此时⽆法写⼊数据到Memstore，数据⽆法写⼊Hbase集群
- 1）memstore中数据达到512MB
计算公式:
hbase.hregion.memstore.flush.size * hbase.hregion.memstore.block.multiplier
- hbase.hregion.memstore.flush.size刷写的阀值，默认是134217728，即128MB。
- hbase.hregion.memstore.block.multiplier是⼀个倍数，默认是4。
- 2）RegionServer全部memstore达到规定值
  - hbase.regionserver.global.memstore.size.lower.limit是0.95，
  - hbase.regionserver.global.memstore.size是0.4，
  - 堆内存总共是16G，
  - 触发刷写的阈值是：6.08GB触发阻塞的阈值是：6.4GB

Compact合并机制

在hbase中主要存在两种类型的compact合并

minor compact ⼩合并

在将Store中多个HFile(StoreFile)合并为⼀个HFile
- 这个过程中，删除和更新的数据仅仅只是做了标记，并没有物理移除，这种合并的触发频率很⾼。
minor compact⽂件选择标准由以下⼏个参数共同决定

<!--待合并⽂件数据必须⼤于等于下⾯这个值-->
<property>
 <name>hbase.hstore.compaction.min</name>
 <value>3</value>
</property>
<!--待合并⽂件数据必须⼩于等于下⾯这个值-->
<property>
 <name>hbase.hstore.compaction.max</name>
 <value>10</value>
</property>
<!--默认值为128m,
表示⽂件⼤⼩⼩于该值的store file ⼀定会加⼊到minor compaction的store file中
-->
<property>
 <name>hbase.hstore.compaction.min.size</name>
 <value>134217728</value>
</property>
<!--默认值为LONG.MAX_VALUE，
表示⽂件⼤⼩⼤于该值的store file ⼀定会被minor compaction排除-->
<property>
 <name>hbase.hstore.compaction.max.size</name>
 <value>9223372036854775807</value>
</property>

触发条件
- memstore flush
  - 在进⾏memstore flush前后都会进⾏判断是否触发compact
- 定期检查线程
  - 周期性检查是否需要进⾏compaction操作
  - 由参数：hbase.server.thread.wakefrequency决定，默认值是10000 millseconds

major compact ⼤合并

合并Store中所有的HFile为⼀个HFile
- 这个过程有删除标记的数据会被真正移除，同时超过单元格maxVersion的版本记录也会被删除。
- 合并频率⽐较低，默认7天执⾏⼀次，并且性能消耗⾮常⼤，建议⽣产关闭(设置为0)，在应⽤空闲时间⼿动触发。
- ⼀般可以是⼿动控制进⾏合并，防⽌出现在业务⾼峰期。

major compaction触发时间条件

<!--默认值为7天进⾏⼀次⼤合并，-->
<property>
  <name>hbase.hregion.majorcompaction</name>
  <value>604800000</value>
</property>

⼿动触发

##使⽤major_compact命令
major_compact tableName

Region 拆分机制

Region中存储的是⼤量的rowkey数据 ,当Region中的数据条数过多的时候，直接影响查询效率
当Region过⼤的时候，HBase会拆分Region , 这也是Hbase的⼀个优点

拆分策略

ConstantSizeRegionSplitPolicy

0.94版本前默认切分策略
当region⼤⼩⼤于某个阈值(hbase.hregion.max.filesize=10G)之后就会触发切分
⼀个region等分为2个region。
弊端：切分策略对于⼤表和⼩表没有明显的区分。
- 阈值(hbase.hregion.max.filesize)设置较⼤对⼤表⽐较友好，但是⼩表就有可能不会触发分裂，极端情况下可能就1个，这对业务来说并不是什么好事。
- 如果设置较⼩则对⼩表友好，但⼀个⼤表就会在整个集群产⽣⼤量的region，这对于集群的管理、资源使⽤、failover来说都不是⼀件好事。

IncreasingToUpperBoundRegionSplitPolicy

0.94版本~2.0版本前默认切分策略
⼀个region⼤⼩⼤于设置阈值就会触发切分。
阈值在⼀定条件下不断调整，调整规则和region所属表在当前regionserver上的region个数有关系.
region split的计算公式是：

regioncount^3 * 128M * 2，当region达到该size的时候进⾏split
例：
第⼀次split：1^3 * 256 = 256MB
第⼆次split：2^3 * 256 = 2048MB
第三次split：3^3 * 256 = 6912MB
第四次split：4^3 * 256 = 16384MB > 10GB，因此取较⼩的值10GB

SteppingSplitPolicy

2.0默认版本
依然和待分裂region所属表在当前regionserver上的region个数有关系
- 如果region个数等于1，切分阈值为flush size * 2
- 否则为MaxRegionFileSize

KeyPrefixRegionSplitPolicy

根据rowKey的前缀对数据进⾏分组
这⾥是指定rowKey的前多少位作为前缀

⽐如rowKey都是16位的，指定前5位是前缀，那么前5位相同的rowKey在进⾏region split的时候会分到相同的region中

DelimitedKeyPrefixRegionSplitPolicy

保证相同前缀的数据在同⼀个region中

例如rowKey的格式为：userid_eventtype_eventid
指定的delimiter为_，则split的的时候会确保userid相同的数据在同⼀个region中。

DisabledRegionSplitPolicy

不启⽤⾃动拆分, 需要指定⼿动拆分

RegionSplitPolicy的应⽤

Region拆分策略可以全局统⼀配置，也可以为单独的表指定拆分策略。

通过hbase-site.xml全局统⼀配置(对hbase所有表⽣效)

<property>
 <name>hbase.regionserver.region.split.policy</name>
 <value>org.apache.hadoop.hbase.regionserver.IncreasingToUpperBoundRegionSplitPolicy</value>
</property>

通过Java API为单独的表指定Region拆分策略

HTableDescriptor tableDesc = new HTableDescriptor("test1");
tableDesc.setValue(HTableDescriptor.SPLIT_POLICY,   IncreasingToUpperBoundRegionSplitPolicy.class.getName());
tableDesc.addFamily(new HColumnDescriptor(Bytes.toBytes("cf1")));
admin.createTable(tableDesc);

通过HBase Shell为单个表指定Region拆分策略

create 'test2', {METADATA => {'SPLIT_POLICY' => 'org.apache.hadoop.hbase.regionserver.IncreasingToUpperBoundRegionSplitPolicy'}},{NAME => 'cf1'}

HBase表的预分区(region)

为何要预分区？

当⼀个table刚被创建的时候，Hbase默认的分配⼀个region给table
- 这个时候，所有的读写请求都会访问到同⼀个regionServer的同⼀个region中
- 这时，不到负载均衡的效果了，集群中的其他regionServer就可能会处于⽐较空闲的状态。
解决这个问题可以⽤pre-splitting，在创建table的时候就配置好，⽣成多个
region
- 增加数据读写效率
- 负载均衡，防⽌数据倾斜
- ⽅便集群容灾调度region
  - 每⼀个region维护着startRow与endRowKey，如果加⼊的数据符合某个region维护的rowKey范围，则该数据交给这个region维

⼿动指定预分区

create 'person','info1','info2',SPLITS => ['1000','2000','3000']

也可以把分区规则创建于⽂件中

vi split.txt
aa
bb
cc
dd
# 执行
create 'student','info',SPLITS_FILE => '/root/hbase/split.txt'

Region 合并

HBase API应⽤和优化

HBase API客户端操作

HBase 协处理器

问题背景

访问HBase的⽅式是使⽤scan或get获取数据，在获取到的数据上进⾏业务运算
但是在数据量⾮常⼤的时候，⽐如⼀个有上亿⾏及⼗万个列的数据集，再按常⽤的
⽅式移动获取数据就会遇到性能问题。
客户端也需要有强⼤的计算能⼒以及⾜够的内存来处理这么多的数据。
此时就可以考虑使⽤Coprocessor(协处理器)
- 将业务运算代码封装到Coprocessor中并在RegionServer上运⾏，即在数据实际存储位置执⾏，最后将运算结果返回到客户端。
- 利⽤协处理器，⽤户可以编写运⾏在HBase Server端的代码

Hbase Coprocessor类似概念

触发器和存储过程：
- ⼀个Observer Coprocessor有些类似于关系型数据库中的触发器，通过它我们可以在⼀些事件（如Get或是`Scan）发⽣前后执⾏特定的代码。
- Endpoint Coprocessor则类似于关系型数据库中的存储过程，因为它允许我们在RegionServer上直接对它存储的数据进⾏运算，⽽⾮是在客户端完成运算。
MapReduce：
- MapReduce的原则就是将运算移动到数据所处的节点。Coprocessor也是按照相同的原则去⼯作的。
AOP：
- 如果熟悉AOP的概念的话，可以将Coprocessor的执⾏过程视为在传递请求的过程中对请求进⾏了拦截，并执⾏了⼀些⾃定义代码。

Observer 案例

通过协处理器Observer实现Hbase当中t1表插⼊数据,指定的另⼀张表t2也需要插⼊相对应的数据

create 't1','info'
create 't2','info'

思路：通过Observer协处理器捕捉到t1插⼊数据时，将数据复制⼀份并保存到t2表中
添加依赖

编写Observer

public class MyProcessor extends BaseRegionObserver {
    @Override
    public void prePut(ObserverContext<RegionCoprocessorEnvironment> e, Put put, WALEdit edit, Durability durability) throws IOException {
       //把自己需要执行的逻辑定义在此处，向t2表插入数据，数据具体是什么内容与Put一样
        //获取t2表table对象
        final HTable t2 = (HTable) e.getEnvironment().getTable(TableName.valueOf("t2"));
        //解析t1表的插入对象put
        final Cell cell = put.get(Bytes.toBytes("info"), Bytes.toBytes("name")).get(0);
        //table对象.put
        final Put put1 = new Put(put.getRow());
        put1.add(cell);
        t2.put(put1); //执行向t2表插入数据
        t2.close();
    }
}

打成jar包，上传HDFS

cd /opt/sw
mv original-hbaseStudy-1.0-SNAPSHOT.jar processor.jar
hdfs dfs -mkdir -p /processor
hdfs dfs -put processor.jar /processor

挂载协处理器

describe 't1'
alter 't1',METHOD =>
'table_att','Coprocessor'=>'hdfs://os1:9000/processor/processor.jar|com.test.hbase.processor.MyProcessor|1001|'

大数据 - （六-2）- HBase
什么是HBase？是⼀个分布式、海量、列式、⾮关系型数据库系统，可以提供超⼤规模数据集的实时随机读写列存储的...
使用命令行创建和使用HBase数据库
1. 连接到hbase数据库执行hbase shell命令。 hbase shell 2. 显示HBase Sh...
HBase
HBase简介 1.HBase是面向列的，数据稀疏的非关系型数据库。2.HBase建立在Hadoop的HDFS文件...
HBase架构介绍
1.Hadoop生态圈组件 2.HBase架构 3.HBase表结构 4.HBase数据保存过程 5.HBase数...
面试题汇总：HBASE
1.《Hbase相关面试题》 2.《【面试】HBase面试题》 3.《Hbase总结（六）hbase37个笔试题》...
一条数据的HBase之旅，简明HBase入门教程-开篇
常见的HBase新手问题:1. 什么样的数据适合用HBase来存储?2. 既然HBase也是一个数据库，能否用它将...
Hadoop生态圈
生态圈 1. HBase的数据存储在HDFS里 2. MapReduce可以计算HBase里的数据，也可以计算...
hbase与mapduce集成
1.从HBase读取数据2.将数据写入HBase3.结合以上两种，用于数据迁移关联jar包问题：hadoop环境...
code搬运工_关于Phoenix的Secondary Inde
存储在HBase中的数据:(1) HBase唯一索引 primary row key(2) 全表扫描 scan(...
分布式NoSQL数据库HBase介绍
1. HBase数据库介绍 HBase产生背景自1970年以来，关系数据库用于数据存储和维护有关问题的解决方案。大...

大数据 - （六-2）- HBase

什么是HBase？

列存储的优点：

HBase的特点

HBase应用场景

HBase数据模型

逻辑存储模型

HBase整体架构

Zookeeper：

HMaster（Master）：

HRegionServer（RegionServer）

Region

Hbase环境安装

修改配置⽂件

HBase集群的启动和停⽌

HBase shell 基本操作

创建⼀张表， 包含两个列族

添加数据操作

查询数据

更新

删除数据和表

HBase原理深⼊

HBase读数据流程

HBase写数据流程

HBase的flush(刷写)及compact(合并)机制

Flush机制

阻塞机制

Compact合并机制

minor compact ⼩合并

major compact ⼤合并

major compaction触发时间条件

⼿动触发

Region 拆分机制

拆分策略

ConstantSizeRegionSplitPolicy

IncreasingToUpperBoundRegionSplitPolicy

SteppingSplitPolicy

KeyPrefixRegionSplitPolicy

DelimitedKeyPrefixRegionSplitPolicy

DisabledRegionSplitPolicy

RegionSplitPolicy的应⽤

HBase表的预分区(region)

为何要预分区？

⼿动指定预分区

Region 合并

HBase API应⽤和优化

HBase API客户端操作

HBase 协处理器

问题背景

Hbase Coprocessor类似概念

Observer 案例

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

创建⼀张表，包含两个列族