想了解Hadoop？那就不要错过这篇文章

作者: 袋鼠云数栈 | 来源:发表于2021-03-19 13:37 被阅读0次

想了解Hadoop？那就不要错过这篇文章
分享篇 | 梁冬：西医养生与中医养生的区别
想了解云原生技术？千万不要错过这篇文章
亚马逊到底是什么？怎么做亚马逊？
Hadoop分布式环境搭建
献给所有正在找路的人（为儿子保存）
人与人的差距原因在哪里？有心人读读吧，很有用的...
毕业后的5年拉开大家的距离的原因在哪里
毕业头五年决定你的一生
Flink on Yarn

2011年的时候我们在百度搜索Hadoop相关的问题每天只有零星几个，2015年再去百度搜索Hadoop已经有800多万个问题，而如今已然已经过亿了，Hadoop已成为大数据必备的基础设施了。Hadoop被公认是一套行业大数据标准开源软件，在分布式环境下提供了海量数据的处理能力。几乎所有主流厂商都围绕Hadoop开发工具、开源软件、商业化工具和技术服务。近年大型IT公司，如EMC、Microsoft、Intel、Teradata、Cisco都明显增加了Hadoop方面的投入。那么到底什么是Hadoop？它有什么作用？它的基础架构是怎么样的？今天就Hadoop的这些基本概念来做一次简单的梳理。

一、Hadoop是什么？

Hadoop是一个由Apache基金会所开发的分布式系统基础架构, 是一个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题，是大数据技术中的基石。Hadoop以一种可靠、高效、可伸缩的方式进行数据处理，用户可以在不了解分布式底层细节的情况下，开发分布式程序，用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。

二、Hadoop能解决什么问题

1、海量数据存储

HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（High throughput）来访问数据，适合那些有着超大数据集（large data set）的应用程序,它由n台运行着DataNode的机器组成和1台（另外一个standby）运行NameNode进程一起构成。每个DataNode 管理一部分数据，然后NameNode负责管理整个HDFS 集群的信息（存储元数据)。

2、资源管理，调度和分配

Apache Hadoop YARN（Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统和调度平台，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

三、Hadoop组件架构是什么样的

看过了Hadoop 的基本介绍之后。我们来了解HDFS 和 YARN的核心架构和原理，先上HDFS框架图：

看完上面的图之后,先来思考几个问题：

1、元数据信息是什么,NameNode是如何维护元数据的,元数据信息如何保障一致性？

NameNode维护了HDFS 集群的元数据信息，包括文件的目录树，每个文件对应的数据块列表，权限设置，副本数等等。

元数据信息存储在内存里,那么NameNode异常宕机情况下咋办？

NameNode对元数据的修改包含两个部分

内存数据修改

修改内存之后写一条EditLog

再来看两个概念 FsImage 和 EditLog：

FsImage：FsImage是NameNode内存中元数据的镜像文件，是元数据的一个永久性checkpoint，包含了HDFS的所有目录和文件idnode的序列化信息,可以类比银行的账户余额,只有简单的信息。

EditLog：EditLog是用于衔接内存元数据和FsImage之间的操作日志，保存了自最后一次检查点之后，所有针对HDFS文件系统的操作，比如增加文件、重命名文件、删除目录等等，可以类比银行的账户流水，包括每一笔的记录，如果日积月累，流水信息可以非常大。

那么如果Editlog变的非常大之后，宕机之后需要读取Editlog进行恢复元数据，这是一个非常慢点过程。这个时候该StandbyNameNode 节点上场了。Standby 节点从JournalNode集合拉取Editlog,并定时将Editlog合并成FsImage. FsImage是一份合并之后的存量数据信息。同时将FsImage 上传到ActiveNode节点。

2、NameNode Active 和 standby 之间是如何切换并始终保持一个ActiveNode？

我们可以在上面的HDFS框架图中看到，链接ZK集群和NameNode的组件ZKFC

1、ZKFC 监控NameNode的监控状态

2、ZKFC 利用ZK提供的主备节点选举来切换

3、通知和修改NameNode的状态

4、确认元数据同步完成之后对外提供服务

再来看YARN框架图：