大数据开发：HDFS的HA原理

大数据开发：HDFS的HA原理

作者: 成都加米谷大数据 | 来源:发表于2021-04-29 17:50 被阅读0次

大数据开发：HDFS的HA原理
HDFS HA 原理
Hadoop2.x HA架构与部署
Hadoop架构介绍
HDFS HA原理与理解
大数据面试 | 02 HDFS难点---HDFS 联邦和HDFS
13-Hadoop高级
hadoop 小文件处理方案
11-Zookeeper
Hadoop 学习笔记整理二

HDFS作为Hadoop大数据生态下的分布式文件系统，在越来越大规模的数据场景下，HDFS历经考验，其性能也得到肯定。并且HDFS也针对不断变化的形式，推出了HA高可用机制。今天的大数据开发分享，我们就来具体讲讲，HDFS的HA原理。

HDFS的HA高可用，其实本质上是Namenode HA。NameNode作为HDFS底层的重要角色，如果挂掉会导致存储停止服务，无法进行数据的读写，基于此NameNode的计算（hbase，hive等）也无法完成。

HDFS Namenode HA如何实现？

首先，保持主和备NameNode的状态同步，并让Standby在Active挂掉后迅速提供服务。nameNode切换对外透明，主Namenode切换到另外一台机器时，不应该导致正在连接的客户端失败，主要包括Client，Datanode与NameNode的链接。

其次，脑裂（split-brain），指在一个高可用（HA）系统中，当联系着的两个节点断开联系时，本来为一个整体的系统，分裂为两个独立节点，这时两个节点开始争抢共享资源，结果会导致系统混乱，数据损坏。

HDFS HA架构原理

通常来说，非HA的Namenode架构，一个HDFS集群只存在一个NN，DN只向一个NN汇报，NN的editlog存储在本地目录。

HA的架构

简单介绍一下上面的组件：

Active NameNode和Standby NameNode：两台NameNode形成互备，一台处于Active状态，为主NameNode，另外一台处于Standby状态，为备NameNode，只有主NameNode才能对外提供读写服务；

ZKFailoverController（主备切换控制器，FC）：ZKFailoverController作为独立的进程运行，对NameNode的主备切换进行总体控制。ZKFailoverController能及时检测到NameNode的健康状况，在主NameNode故障时借助Zookeeper实现自动的主备选举和切换（当然NameNode目前也支持不依赖于Zookeeper的手动主备切换）；

Zookeeper集群：为主备切换控制器提供主备选举支持；

共享存储系统：共享存储系统是实现NameNode的高可用最为关键的部分，共享存储系统保存了NameNode在运行过程中所产生的HDFS的元数据。主NameNode和备NameNode通过共享存储系统实现元数据同步。

在进行主备切换的时候，新的主NameNode在确认元数据完全同步之后才能继续对外提供服务。共享存储系统可通过Network File System(NFS)，Quorum Journal Node（QJN））2种方式实现，NFS是通过linux共享的文件系统，属于操作系统的配置；QJM是hadoop自身的东西，属于软件的配置。

DataNode节点：因为主NameNode和备NameNode需要共享HDFS的数据块和DataNode之间的映射关系，为了使故障切换能够快速进行，DataNode会同时向主NameNode和备NameNode上报数据块的位置信息。

HA关键问题的解决

1、主和备NameNode的保持状态同步，并让Standby在Active挂掉后迅速提供服务？

ZKFailoverController主备切换控制器，对NameNode的主备切换进行总体控制。

NameNode和备NameNode通过共享存储系统实现元数据同步。在进行主备切换的时候，新的主NameNode在确认元数据完全同步之后才能继续对外提供服务。

2、脑裂（split-brain）问题

主要是在以下三处采用隔离措施：

第三方共享存储：任一时刻，只有一个NN可以写入；

DataNode：需要保证只有一个NN发出与管理数据副本有关的删除命令；

Client：需要保证同一时刻只有一个NN能够对Client的请求发出正确的响应。

关于大数据开发，HDFS的HA原理，以上就为大家做了简单的介绍了。Hadoop HDFS的HA高可用，还是需要结合到具体场景下的需求去考虑，不建议盲目采用HA高可用模式。

相关文章

大数据开发：HDFS的HA原理
HDFS作为Hadoop大数据生态下的分布式文件系统，在越来越大规模的数据场景下，HDFS历经考验，其性能也得到肯...
HDFS HA 原理
HDFS HA 原理标签：HDFS HA 概述在 Hadoop 2.x 版本中，Hadoop 实现了 HDFS...
Hadoop2.x HA架构与部署
HDFS-HA、Zookepeer、YARN-HA配置 HDFS-HA namenode name...
Hadoop架构介绍
1.HDFS基本原理 2.机架感知原理 3.全分布式架构 4.Yarn调度原理 5.联盟与HA 6.HDFS上传数...
HDFS HA原理与理解
我们了解HDFS的HA和Federation是从Hadoop1.0和Hadoop2.0的区别开始的。那么HA是代表...
大数据面试 | 02 HDFS难点---HDFS 联邦和HDFS
目录 HDFS F HDFS HA 为了解决HDFS1.0 中单点故障问题和内存受问题。提出了HDFS HA 和H...
13-Hadoop高级
Hadoop的HDFS HA、Yarn HA集群部署 1.HDFS NN SNN(secondary) 热备 NN...
hadoop 小文件处理方案
hadoop hdfs 被设计用作海量数据存储，适合存储大文件，文件在hdfs中是以block的形式存储的，在ha...
11-Zookeeper
ZK 1) 高可用： HDFS/HBase/Spark HA2) API：ZK/Curator开发：Java/S...
Hadoop 学习笔记整理二
大纲：一. 大数据启蒙认识二. HDFS三. Hadoop1.0的非HA模式（SecondaryNameNode）...

网友评论

本文标题：大数据开发：HDFS的HA原理

本文链接：https://www.haomeiwen.com/subject/vevwrltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

大数据开发

热点阅读

hadoop

Hadoop

Spark

大数据开发

关于我们|服务条款|联系我们|大数据开发：HDFS的HA原理|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！