HBase简介与表结构

作者: 跟着大数据和AI去旅行 | 来源:发表于2019-10-17 17:30 被阅读0次

HBase简介与表结构
[ITSTAR]第四课：Hadoop的背景起源三 : BigTa
HBase - 总结
HBase架构介绍
Hbase 海量数据仓库
hbase shell简单使用
Region详解
HBase meta表介绍
HBase表结构和Phoenix 使用
hbase的表结构

HBase是什么

HBase，即Hadoop DataBase，是Hadoop的一个子项目，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，是Google Bigtable的开源实现。

HBase在Hadoop生态中的位置如下 :

使用HDFS作为其分布式存储系统，提供了高可靠的底层存储支持
使用MapReduce来处理海量数据，提供了高性能的计算能力
使用zookeeper提供协同/协调服务，提供了稳定服务和failover机制（故障切换）

列式存储与行式存储

上面说到HBase是基于列的列式数据库，而常用的关系数据库则是行式数据库，此处对两个概念做简单区分。

行式存储是指数据以行为单位进行存储，同一行的数据在存储介质中连续，如Oracle、Mysql、Sql Server

列式存储是指数据以列为单位进行存储，同一列的数据在存储介质中连续，如HBase、HP vertica等分布式数据库

image

行式存储适合处理OLTP，对实时性要求较高的应用，如ATM系统：

INSERT/UPDATE容易，适合随机数据的增加和删除
适合需要获取行中所有属性的查询操作
当数据量很大时且没有索引时，需要大量IO（如只需要查询两列，但仍然要把每一行都读出来）
建立索引等提高性能的操作花时间、占空间

列式存储适合处理OLAP，实时性要求不高，但数据量大：

每一列都可以作为索引进行查询
查询时只有涉及的列被读取
各列独立存储，可根据每一列的实际情况进行压缩，节省存储空间
查询时对各个列并行查询，再进行组合（查询示意图如下）
INSERT/UPDATE比较麻烦，不适合需要频繁更新的应用

HBase适用场景

首先在搞HBase之前我们要对其建立感性认识，其适用场景如下：

并发、简单、随机查询。
（注：HBase不太擅长复杂join查询，但可以通过二级索引即全局索引的方式来优化性能，后续博文会进行讲解）
半结构化、非结构化数据存储。

一般我们从数仓中离线统计分析海量数据，将得到的结果插入HBase中用于实时查询。

HBase表结构

HBase中一个可能的表格如下，包括：

命名空间 ：命名空间是对表的逻辑分组，不同的命名空间类似于关系型数据库中的不同的Database数据库。利用命名空间，在多租户场景下可做到更好的资源和数据隔离。
表：对应于关系型数据库中的一张张表，HBase以“表”为单位组织数据，表由多行组成。
行：行由一个RowKey和多个列族组成，一个行有一个RowKey，用来唯一标示。
行键（RowKey）：类似关系表中的主键，是用来表示唯一一行记录的主键，按字典序排列。
列族（column family）：每一行由若干列族组成，每个列族下可包含多个列，列族是列共性的一些体现。注意：物理上，同一列族的数据存储在一起的，不同的列族存储在不同文件中。 引入这个概念是因为HBase查询中，很多情况下不需要一行中所有的列。例如：BaseInfo、AddressInfo
列（qualifier）：类似关系表中的列，例如：Gender、Age、City
单元格（Cell）：单元格由RowKey、列族、列限定符唯一定位，单元格之中存放一个值（Value）和一个版本号。例如：20
时间戳（TimeStamp）：数据修改时加入的时间戳，单元格内不同版本的值按时间倒序排列，最新的数据排在最前面，下图中作为单独一列，实际上这个值是存放在单元格中的，见下面的例子

image

HBase的表数据内部用Map实现，如上图用字典/json形式可表示如下：

{"Tom":{
    "BasicInfo":{
        "Gender":{"T1":"Male"}, 
        "Age":{"T1":"20"}
    },
    "AddressInfo":{
        "Province":{"T1":"ShanDong"},
        "City":{"T1":"JiNan"}
    }
 },
 "Amy":{
     "BasicInfo":{
         "Gender":{"T2":"Female"}, 
         "Age":{"T2":"18"}
     },
     "AddressInfo":{
         "Province":{"T2":"ShanDong"},
         "City":{"T2":"ZiBo"}
     }
 }
}

假设将Tom的Age改为21，在HBase中会保留数据的若干版本，由时间戳区分，可把表格看成如下形式：

image

用字典/JSON形式表示如下，可以看到实际上只在第四行发生了改变，即在Age中增加了一个键值对 :

{"Tom":{
    "BasicInfo":{
        "Gender":{"T1":"Male"}, 
        "Age":{"T1":"20", "T3":"21"}
    },
    "AddressInfo":{
        "Province":{"T1":"ShanDong"},
        "City":{"T1":"JiNan"}
    }
 },
 "Amy":{
     "BasicInfo":{
         "Gender":{"T2":"Female"}, 
         "Age":{"T2":"18"}
     },
     "AddressInfo":{
         "Province":{"T2":"ShanDong"},
         "City":{"T2":"ZiBo"}
     }
 }
}

所以实际上，上述表在HBase中的逻辑表示如下，一个单元格包含数据的若干个版本，是【时间戳:值】的列表 :