zookeeper hadoop hbase 集群原理介绍

作者: 杀死一只喵 | 来源:发表于2019-02-15 17:16 被阅读0次

zookeeper hadoop hbase 集群原理介绍
Hadoop+zookeeper+Flume+Spark+Kaf
大数据集群搭建2
大数据集群搭建
HBase | 集群部署
sqoop1将mysql数据导入数据库
Storm安装教程
快速了解ZooKeeper应用场景
Zookeeper高可用集群、分布式消息队列Kafka 、
zookeeper 选举过程

[参考文章]：https://www.cnblogs.com/sqchen/p/8080952.html

1.zookeeper

1.1 简介

ZooKeeper是一个开源的分布式协调服务，由雅虎创建，是Google Chubby的开源实现。分布式应用程序可以基于ZooKeeper实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master选举、分布式锁和分布式队列等功能。

1.2 基本概念

本节将介绍ZooKeeper的几个核心概念。这些概念贯穿于之后对ZooKeeper更深入的讲解，因此有必要预先了解这些概念。

1.3

Hadoop + Zookeeper + HBase 高可用集群启动后，进程状态如下：

image.png

Hbase：是一个nosql数据库，和mongodb类似

hdfs：hadoop distribut file system，hadoop的分布式文件系统

Zookeeper在Hadoop集群中的作用。

Zookeeper是分布式管理协作框架，Zookeeper集群用来保证Hadoop集群的高可用，（高可用的含义是：集群中就算有一部分服务器宕机，也能保证正常地对外提供服务。）

Zookeeper保证高可用的原理。

Zookeeper集群能够保证NamaNode服务高可用的原理是：Hadoop集群中有两个NameNode服务，两个NaameNode都定时地给Zookeeper发送心跳，告诉Zookeeper我还活着，可以提供服务，单某一个时间只有一个是Action状态，另外一个是Standby状态，一旦Zookeeper检测不到Action NameNode发送来的心跳后，就切换到Standby状态的NameNode上，将它设置为Action状态，所以集群中总有一个可用的NameNode，达到了NameNode的高可用目的。

Zookeeper的选举机制。

Zookeeper集群也能保证自身的高可用，保证自身高可用的原理是，Zookeeper集群中的各个机器分为Leader和Follower两个，写入数据时，要先写入Leader，Leader同意写入后，再通知Follower写入。客户端读取数时，因为数据都是一样的，可以从任意一台机器上读取数据。
这里Leader角色就存在单点故障的隐患，高可用就是解决单点故障隐患的。Zookeeper从机制上解决了Leader的单点故障问题，Leader是哪一台机器是不固定的，Leader是选举出来的。选举流程是，集群中任何一台机器发现集群中没有Leader时，就推荐自己为Leader，其他机器来同意，当超过一半数的机器同意它为Leader时，选举结束，所以Zookeeper集群中的机器数据必须是奇数。这样就算当Leader机器宕机后，会很快选举出新的Leader，保证了Zookeeper集群本身的高可用。

写入高可用。

集群中的写入操作都是先通知Leader，Leader再通知Follower写入，实际上当超过一半的机器写入成功后，就认为写入成功了，所以就算有些机器宕机，写入也是成功的。

读取高可用。

zookeeperk客户端读取数据时，可以读取集群中的任何一个机器。所以部分机器的宕机并不影响读取。
zookeeper服务器必须是奇数台，因为zookeeper有选举制度，角色有：领导者、跟随者、观察者，选举的目的是保证集群中数据的一致性。

在ZooKeeper中，有三种角色：

Leader
Follower
Observer

HDFS HA原理

单NameNode的缺陷存在单点故障的问题，如果NameNode不可用，则会导致整个HDFS文件系统不可用。所以需要设计高可用的HDFS（Hadoop HA）来解决NameNode单点故障的问题。解决的方法是在HDFS集群中设置多个NameNode节点。但是一旦引入多个NameNode，就有一些问题需要解决。
· HDFS HA需要保证的四个问题：

保证NameNode内存中元数据数据一致，并保证编辑日志文件的安全性。
多个NameNode如何协作
客户端如何能正确地访问到可用的那个NameNode。
怎么保证任意时刻只能有一个NameNode处于对外服务状态。
· 解决方法
对于保证NameNode元数据的一致性和编辑日志的安全性，采用Zookeeper来存储编辑日志文件。
两个NameNode一个是Active状态的，一个是Standby状态的，一个时间点只能有一个Active状态的
NameNode提供服务,两个NameNode上存储的元数据是实时同步的，当Active的NameNode出现问题时，通过Zookeeper实时切换到Standby的NameNode上，并将Standby改为Active状态。
o 客户端通过连接一个Zookeeper的代理来确定当时哪个NameNode处于服务状态。

image.png

a· HDFS HA架构中有两台NameNode节点，一台是处于活动状态（Active）为客户端提供服务，另外一台处于热备份状态（Standby）。
b· 元数据文件有两个文件：fsimage和edits，备份元数据就是备份这两个文件。JournalNode用来实时从Active NameNode上拷贝edits文件，JournalNode有三台也是为了实现高可用。
c· Standby NameNode不对外提供元数据的访问，它从Active NameNode上拷贝fsimage文件，从JournalNode上拷贝edits文件，然后负责合并fsimage和edits文件，相当于SecondaryNameNode的作用。最终目的是保证Standby NameNode上的元数据信息和Active NameNode上的元数据信息一致，以实现热备份。
d· Zookeeper来保证在Active NameNode失效时及时将Standby NameNode修改为Active状态。
e· ZKFC（失效检测控制）是Hadoop里的一个Zookeeper客户端，在每一个NameNode节点上都启动一个ZKFC进程，来监控NameNode的状态，并把NameNode的状态信息汇报给Zookeeper集群，其实就是在Zookeeper上创建了一个Znode节点，节点里保存了NameNode状态信息。当NameNode失效后，ZKFC检测到报告给Zookeeper，Zookeeper把对应的Znode删除掉，Standby ZKFC发现没有Active状态的NameNode时，就会用shell命令将自己监控的NameNode改为Active状态，并修改Znode上的数据。
Znode是个临时的节点，临时节点特征是客户端的连接断了后就会把znode删除，所以当ZKFC失效时，也会导致切换NameNode。
f· DataNode会将心跳信息和Block汇报信息同时发给两台NameNode，DataNode只接受Active NameNode发来的文件读写操作指令。

网友评论

本文标题：zookeeper hadoop hbase 集群原理介绍

本文链接：https://www.haomeiwen.com/subject/drtpeqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

zookeeper hadoop hbase 集群原理介绍

1.zookeeper

1.1 简介

1.2 基本概念

1.3

Hbase：是一个nosql数据库，和mongodb类似

hdfs：hadoop distribut file system，hadoop的分布式文件系统

Zookeeper在Hadoop集群中的作用。

Zookeeper保证高可用的原理。

Zookeeper的选举机制。

写入高可用。

读取高可用。

在ZooKeeper中，有三种角色：

HDFS HA原理

相关文章

zookeeper hadoop hbase 集群原理介绍

Hadoop+zookeeper+Flume+Spark+Kaf

大数据集群搭建2

大数据集群搭建

HBase | 集群部署

sqoop1将mysql数据导入数据库

Storm安装教程

快速了解ZooKeeper应用场景

Zookeeper高可用集群、分布式消息队列Kafka 、

zookeeper 选举过程

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读