hadoop笔记6--HBase简介

hadoop笔记6--HBase简介

作者: 七号萝卜 | 来源:发表于2016-12-19 22:15 被阅读108次

hadoop笔记6--HBase简介
hadoop学习笔记
无标题文章
java大数据之hadoop
Hadoop相关文章索引（2）——Hadoop运维主题
大数据技术原理与应用：大数据处理架构Hadoop生态圈
Hadoop简介
Hadoop简介
Hadoop简介
Hadoop简介

HBase是Apache基金会的一个项目，是一个分布式可扩展的NoSQL数据库，提供了对结构化、半结构化、甚至非结构化大数据的实时读写和随机访问能力。

要说HBase在Hadoop中的地位，简单来说就是：

HBase之于HDFS就类似于数据库之于文件系统。

这里就来简单介绍一下HBase。

首先呢，先来看看我们用HBase的功能：

首先它是Hadoop的数据库，能够进行存储数据和检索数据。
与关系型数据库MySQL那些相比呢，它能够存储上亿级的海量数据，而且在海量数据上检索速度能达到准实时，秒级别。
它是基于HDFS的，因此HDFS的优势它都拥有，比如数据安全性等。

和Hive相比，Hive主要是基于mapreduce的，通过类SQL语句分析数据用的；而HBase主要就是检索数据用了。

HBase表中的数据可以进行快速查询，关键在于表中的rowkey的设计。只要能快速的定位rowkey, 就能实现快速的查询。

而且HBase的机制是数据先写入到内存中，当数据量达到一定的量（如128M），再写入磁盘中，在内存中，是不进行数据的更新或合并操作的，只增加数据，这使得用户的写操作只要进入内存中就可以立即返回，因此可以进行实时查询。

借助网上看到的一幅图来表示Hadoop EcoSystem中的各层系统：

Hadoop Ecosystem

其中，HBase位于结构化存储层，Hadoop HDFS为HBase提供了高可靠性的底层存储支持，Hadoop MapReduce为HBase提供了高性能的计算能力，Zookeeper为HBase提供了稳定服务和failover机制。

另外，Pig和Hive还为HBase提供了高层语言支持，使得在HBase上进行数据统计处理变的非常简单。 Sqoop则为HBase提供了方便的RDBMS数据导入功能，使得传统数据库数据向HBase中迁移变的非常方便。

先不看其他的东西，现在先看看HBase作为数据库长的是什么样子。

HBase的数据模型

我们就先来看看HBase的基本数据模型。HBase表示一个分布式多维表，在数据模型定义上是一个3元组：{行关键字，列族和列名，时间戳}。HBase通过它们来进行索引和查询定位。

下面是一个例子：

HBase表的示例

在HDFS存储中，上表其实对应的是一组键值对，比如key3行CompanyInfo、Name下t2时间戳下的数值：company2，存储时的完整键值对为：

{key3,CompanyInfo,Name,t2}-->company2

也就是说HBase中并不存在行列这样的概念，在实现时只认为存在键值对这样的概念。那个value实际上是以byte数组的形式存储。

1.行关键字（row key）
HBase一张表可以有上亿行记录，每一行都是由一个行关键字来标识。表中的记录默认按照行关键字升序排序。
2.列族（Column Family）和列名（Column Name）
HBase每张表都有一个或多个列族，而列族相当于一个容器，每个列都必须归属于某个列族。一个列族中可以由任意多个列组成，列族支持动态扩展，无需预先定义列的数量以及类型，所有列均以二进制格式存储，用户需要自行进行类型转换。所有的列族成员的前缀是相同的，例如“abc:a1”和“abc:a2”两个列都属于abc这个列族。
3.时间戳（Timestamp）
每次数据操作对应的时间戳，可以看作是数据的版本号。
</br>
而上面三者合起来就构成了一个单元格（Cell）:这个是表存储数据的单元。由{行健，列（列族:列名），时间戳}唯一确定。

HBase的基本构架

接下来看看HBase的基本组成结构。

HBase的基本构架

HBase也是分布式的集群，因此还是会分为主节点和从节点，而这两者就是HBase的主要两个部分：HBase Master(作主节点)和HBase Region Server（做从节点）。

Master是HBase集群的主控服务器，负责集群状态的管理维护；Region Server是HBase具体对外提供服务的进程，就是主要负责数据的检索等。

另外Hbase集群由zookeeper来监控。在伪分布模式下Hbase会开启自带的zookeeper。

再来看一幅HBase总体组成结构图：

总体结构图

首先，HBase中的所有数据文件都存储在Hadoop HDFS文件系统上。主要包括两种文件类型：

HFile， HBase中KeyValue数据的存储格式。
HLogFile，HBase中WAL（Write Ahead Log）的存储格式，物理上是Hadoop的Sequence File。

接着，可以看到，在一个Region server cluster里面有多个Region Server，其中Region Server又包含了很多Region，而Region是HBase调度的基本单位，多个Region能组成一个真正的Table，如下图：

Table

而每一个Region内部里面又有一系列Store。每个Store里面又是由memStore和StoreFile两个部分组成，其中StoreFile是最终的数据，它是对HFile的轻量级包装，存储到HDFS中；而memStore不论在Store是否有真实数据都将会有，在内存当中。

HBase可以看做HDFS文件系统上的数据库，有着海量数据存储、快速随机访问和大量写操作的应用的优点，常用在互联网搜索引擎数据存储、审计日志系统、实时系统、内容服务系统当中。

以上简单介绍了HBase，下一篇准备看看HBase的安装和它的基本用法。

(PS:以上的图示均来自《深入理解大数据》一书。)

相关文章

hadoop笔记6--HBase简介
HBase是Apache基金会的一个项目，是一个分布式可扩展的NoSQL数据库，提供了对结构化、半结构化、甚至非结...
hadoop学习笔记
这篇为学习hadoop的笔记，书籍来自《Hadoop构建数据仓库实战》 hadoop简介 hadoop是一个由...
无标题文章
Hive 学习笔记学习笔记 Hive 简介 Hive 是建立在 Hadoop 上的数据仓库基础构架，可以用来进行...
java大数据之hadoop
一、Hadoop简介 1.1 Hadoop是什么 The Apache Hadoop project develo...
Hadoop相关文章索引（2）——Hadoop运维主题
hadoop运维笔记1 Hadoop集群日常运维 Hadoop运维经验杂谈 Hadoop运维笔记之调整hdfs...
大数据技术原理与应用：大数据处理架构Hadoop生态圈
Hadoop生态圈概述 Hadoop简介什么是Apache hadoop？Apache Hadoop项目是以可靠...
Hadoop简介
什么是hadoop hadoop是apache下的一款开源分布式大数据处理框架，通过多台廉价机器搭建集群的方式，...
Hadoop简介
Hadoop是一个Apache基金会所开发的分布式系统基础架构，具有高容错、高可靠性、高扩展性、高效、低成本等特点...
Hadoop简介
从数据爆炸开始。。。一、第三次工业革命第一次：18世纪60年代，手工工厂向机器大生产过渡，以蒸汽机的发明...
Hadoop简介
Hadoop 介绍 Hadoop是Apache组织的一个分布式计算框架（java语言），其最核心的设计就是：HDF...

网友评论

本文标题：hadoop笔记6--HBase简介

本文链接：https://www.haomeiwen.com/subject/eijlmttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

程序员

我爱编程

关于我们|服务条款|联系我们|hadoop笔记6--HBase简介|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！