美文网首页我爱编程
大数据初步:带你了解Hadoop-ha

大数据初步:带你了解Hadoop-ha

作者: 值得一看的喵 | 来源:发表于2017-11-21 11:50 被阅读0次

Hadoop 2.0是怎样产生的?早期的hadoop版本,NN(namenode)是HDFS集群的单点故障点,每一个集群只有一个NN,如果这个机器或进程不可用,整个集群就无法使用。为了解决这个问题,出现了一堆针对HDFS HA的解决方案(如:Linux HA, VMware FT, shared NAS+NFS, BookKeeper, QJM/Quorum Journal Manager, BackupNode等); 在HA具体实现方法不同的情况下,HA框架的流程是一致的, 不一致的就是如何存储和管理日志。在Active NN和Standby NN之间要有个共享的存储日志的地方,Active NN把EditLog写到这个共享的存储日志的地方,Standby NN去读取日志然后执行,这样Active和Standby NN内存中的HDFS元数据保持着同步。一旦发生主从切换Standby NN可以尽快接管Active NN的工作.

SPOF方案回顾

1. Secondary NameNode:它不是HA(高可用),它只是阶段性的合并edits和fsimage,以缩短集群启动的时间。当NN失效的时候,Secondary NN并无法立刻提供服务,Secondary NN甚至无法保证数据完整性:如果NN数据丢失的话,在上一次合并后的文件系统的改动会丢失

2. Backup NameNode (HADOOP-4539):它在内存中复制了NN的当前状态,算是Warm Standby,可也就仅限于此,并没有failover(故障切换)等。它同样是阶段性的做checkpoint,也无法保证数据完整性

3. 手动把name.dir指向NFS(Network File System),这是安全的Cold Standby,可以保证元数据不丢失,但集群的恢复则完全靠手动

4. Facebook AvatarNode:Facebook有强大的运维做后盾,所以Avatarnode只是Hot Standby,并没有自动切换,当主NN失效的时候,需要管理员确认,然后手动把对外提供服务的虚拟IP映射到Standby NN,这样做的好处是确保不会发生脑裂的场景。其某些设计思想和Hadoop 2.0里的HA非常相似,从时间上来看,Hadoop 2.0应该是借鉴了Facebook的做法

• Facebook AvatarNode 原理示例图

• PrimaryNN与StandbyNN之间通过NFS来共享FsEdits、FsImage文件,这样主备NN之间就拥有了一致的目录树和block信息;而block的位置信息,可以根据DN向两个NN上报的信息过程中构建起来。这样再辅以虚IP,可以较好达到主备NN快速热切的目的。但是显然,这里的NFS又引入了新的SPOF(Single Points Of Failure:单点故障)

• 在主备NN共享元数据的过程中,也有方案通过主NN将FsEdits的内容通过与备NN建立的网络IO流,实时写入备NN,并且保证整个过程的原子性。这种方案,解决了NFS共享元数据引入的SPOF,但是主备NN之间的网络连接又会成为新的问题

hadoop2.X ha 原理:

• hadoop2.x之后,Clouera提出了QJM/Qurom Journal Manager,这是一个基于Paxos算法实现的HDFS HA方案,它给出了一种较好的解决思路和方案,示意图如下:

• 基本原理就是用2N+1台 JN 存储EditLog,每次写数据操作有大多数(>=N+1)返回成功时即认为该次写成功,数据不会丢失了。当然这个算法所能容忍的是最多有N台机器挂掉,如果多于N台挂掉,这个算法就失效了。这个原理是基于Paxos算法

• 在HA架构里面SecondaryNameNode这个冷备角色已经不存在了,为了保持standby NN时时的与主Active NN的元数据保持一致,他们之间交互通过一系列守护的轻量级进程JournalNode

• 任何修改操作在 Active NN上执行时,JN进程同时也会记录修改log到至少半数以上的JN中,这时 Standby NN 监测到JN 里面的同步log发生变化了会读取 JN 里面的修改log,然后同步到自己的的目录镜像树里面,如下图:

• 当发生故障时,Active的 NN 挂掉后,Standby NN 会在它成为Active NN 前,读取所有的JN里面的修改日志,这样就能高可靠的保证与挂掉的NN的目录镜像树一致,然后无缝的接替它的职责,维护来自客户端请求,从而达到一个高可用的目的

• QJM方式来实现HA的主要优势:

1. 不需要配置额外的高共享存储,降低了复杂度和维护成本

2. 消除spof

3. 系统鲁棒性(Robust:健壮)的程度是可配置(鲁棒是Robust的音译,也就是健壮和强壮的意思。它是在异常和危险情况下系统生存的关键)

4. JN不会因为其中一台的延迟而影响整体的延迟,而且也不会因为JN的数量增多而影响性能(因为NN向JN发送日志是并行的)

hadoop2.x ha 详述:

• datanode的fencing: 确保只有一个NN能命令DN。HDFS-1972中详细描述了DN如何实现fencing

1. 每个NN改变状态的时候,向DN发送自己的状态和一个序列号

2. DN在运行过程中维护此序列号,当failover(故障切换)时,新的NN在返回DN心跳时会返回自己的active状态和一个更大的序列号。DN接收到这个返回则认为该NN为新的active

3. 如果这时原来的active NN恢复,返回给DN的心跳信息包含active状态和原来的序列号,这时DN就会拒绝这个NN的命令

• 客户端fencing:确保只有一个NN能响应客户端请求,让访问standby nn的客户端直接失败。在RPC层封装了一层,通过FailoverProxyProvider以重试的方式连接NN。通过若干次连接一个NN失败后尝试连接新的NN,对客户端的影响是重试的时候增加一定的延迟。客户端可以设置重试此时和时间

• Hadoop提供了ZKFailoverController角色,部署在每个NameNode的节点上,作为一个deamon(守护)进程, 简称zkfc,示例图如下:

• FailoverController主要包括三个组件:

1. HealthMonitor(健康监测器): 监控NameNode是否处于unavailable(不可用)或unhealthy(不健康)状态。当前通过RPC调用NN相应的方法完成

2. ActiveStandbyElector: 管理和监控自己在ZK中的状态

3. ZKFailoverController 它订阅HealthMonitor 和ActiveStandbyElector 的事件,并管理NameNode的状态

• ZKFailoverController主要职责:

1. 健康监测:周期性的向它监控的NN发送健康探测命令,从而来确定某个NameNode是否处于健康状态,如果机器宕机,心跳失败,那么zkfc就会标记它处于一个不健康的状态

2. 会话管理:如果NN是健康的,zkfc就会在zookeeper中保持一个打开的会话,如果NameNode同时还是Active状态的,那么zkfc还会在Zookeeper中占有一个类型为短暂类型的znode,当这个NN挂掉时,这个znode将会被删除,然后备用的NN,将会得到这把锁,升级为主NN,同时标记状态为Active

3. 当宕机的NN新启动时,它会再次注册zookeper,发现已经有znode锁了,便会自动变为Standby状态,如此往复循环,保证高可靠,需要注意,目前仅仅支持最多配置2个NN

4. master选举:如上所述,通过在zookeeper中维持一个短暂类型的znode,来实现抢占式的锁机制,从而判断那个NameNode为Active状态

相关文章

  • 大数据初步:带你了解Hadoop-ha

    Hadoop 2.0是怎样产生的?早期的hadoop版本,NN(namenode)是HDFS集群的单点故障点,每...

  • 大数据初步了解

    “这是最好的时代,这是最坏的时代,这是智慧的时代,这是愚蠢的时代,这是大数据的云时代。”大数据一词自2012...

  • 数据挖掘十大算法初步了解

    最近在学习陈旸老师的数据分析专栏,在简书记录一些学习笔记 分类算法:C4.5,朴素贝叶斯,SVM,KNN,Adab...

  • 第一学段(1~2年级)

    【内容要求】 1.数据分类 会对物体、图形或数据进行分类,初步了解分类与分类标准的关系,形成初步的数据意识。 【学...

  • 13 缓存的使用姿势(一):如何选择缓存的读写策略?

    上节课,我带你了解了缓存的定义、分类以及不足,你现在应该对缓存有了初步的认知。从今天开始,我将带你了解一下使用缓存...

  • 初步了解大数据技术

    大数据的定义: 无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,需要新处...

  • 一文看懂人脸识别算法技术发展脉络

    【摘要】我们从人脸识别技术的技术细节讲起,带你初步了解人脸识别技术的发展过程。通过平台实例的操作,带你看看如何利用...

  • 数据库的初步了解

    什么是数据库? 简单的说,数据库(英文Dtabase)就是一个存放数据的仓库,这个仓库是按照一定的数据结果(数据结...

  • 聚类算法汇集

    1,k均值的k如何确定K-means怎么选K? 数据科学家必须了解的六大聚类算法:带你发现数据之美 | 机器之心 ...

  • 初步了解

    什么是css语法?CSS (Cascading Style Sheets) 层叠样式表,用来编辑 HTML中元素...

网友评论

    本文标题:大数据初步:带你了解Hadoop-ha

    本文链接:https://www.haomeiwen.com/subject/jknivxtx.html