3.Hadoop 2.x 深度内容

作者: 奉先 | 来源:发表于2016-12-20 19:23 被阅读50次

3.Hadoop 2.x 深度内容
Spring全家桶、Dubbo、分布式、消息队列后端必备全套开
ubuntu16.04 spark连接hadoop配置
从零开始构建springboot 2.x Web项目【持续更新】
16-Hive快速入门与一个月总结
vue2.x和vue3.0在scss样式中使用深度选择器的区别
Hive SQL 相关
Vue项目结合Element-UI的两种方式
洋葱阅读法2022-03-13第六章深度阅读
5. Python输入-输出

1. HDFS架构：

1. 架构综述：

HDFS是master/slave架构。HDFS集群包含一个namenode和多个datanode；namenode管理文件系统namespace，并且管理客户端对文件的访问。datanode用来管理数据存储。

HDFS 架构

Namenode存储元数据信息。一个文件在被存进HDFS之前，被切分成多个“数据块”。对于之前的设定，通常replication=3，每个块会被冗余成3个块，存储在不同的datanode中，对于每一个数据块和datanode的mapping关系（每一个数据块存储在哪个datanode节点上）存储在namenode中。NameNode响应文件系统客户端的读和写请求，Namenode接受客户端的元数据操作请求（Metadata ops），并下发给Datanode 块操作（Block ops）。DataNode在Namenode的操作说明支持下，执行数据块的创建、删除、创建副本等操作。

对于最后的读写操作，客户端直接从Datanode读数据和写数据（Namenode会动态分配给Client离它最近的Datanode，“客户端是指运行在datanode上的程序”）。

HDFS上的文件，可以创建、删除、移动或重命名，当文件创建、写入和关闭之后不能修改文件内容。

2. Namenode功能：

（1）Namenode决定数据块的复制。

（2）周期性的获得集群的datanode的心跳（Heartbeat）和块状态报告（Blockreport）。

（3）HDFS的中心服务器；负责管理文件系统的名字空间（namespace）以及客户端对文件的访问。

（4）客户端（Client）访问HDFS集群的入口。

（5）响应给客户端的数据直接由datanode传出。Namenode负责文件元数据的操作，Datanode负责处理文件内容的读写请求。

（6）读取文件时NameNode尽量让用户先读取最近的副本，降低带块消耗和读取延时。副本存在哪些datanode上由Namenode来控制。

3. DataNode功能：

（1）存储数据，以块为单位进行存储（128M）。数据块在Datanode以文件存储在磁盘上，包括2个文件，一个是数据本身，一个是元数据（数据块长度、块数据的校验和、时间戳）。

（2）每隔一个小时向namenode报告块的状态（1H）；

（3）周期性向namenode注册（心跳），如果Namenode超过10分钟没有收到某个Datanode的心跳信息，则认为该Datanode不可用，不再读取该datanode数据和向该datanode写入数据。

（4）在线加入/卸载服务器。

4. DataBlock Replication

Block Replication

假如replication factor是3，那么同一个数据块有3份。那么这3份冗余的数据块的存储规则一般情况下是：在本机架的一个node上存第一个；在同一机架的不同node上存第二个；在不同机架的不同node上存第三个。为了节省带宽和降低读取延时，HDFS会选取一个离客户端最近的那个数据块（三个数据块中）。

5. 安全模式（safemode）：

启动时，namenode进入safemode状态。在safemode状态时，不发生数据块的复制。Namenode获取Datanode的心跳和块报告。每一个文件块有一个配置的最小的副本数。当Namenode确认每个块的副本数达到配置的数目后，离开安全模式。之后，如果有小于配置数量的块，namenode开始复制这些块。

Namenode保存2个文件，分别是EditLog和FsImage。EditLog，记录文件系统元数据改变的事务日志。整个文件系统namespace，包括数据块到文件的映射、文件系统属性存储在FsImage中。在namenode启动时，FsImage会读入内存中，按照EditLog的内容（事务日志）执行FsImage，生成一个新的FsImage。同时，将EditLog内容清空。所以，如果EditLog的内容很大的话，会影响Namenode的启动速度。

2. Secondary Namenode

（1）Secondary Namenode

Namenode将对文件系统的修改日志保存在edits log中。当Namenode启动时，Namenode从fsimage中读取HDFS的状态，并将edits log中的日志事务应用执行在fsimage，这样会得到一个新的fsimage，并清空edits log。

因为Namenode只会在启动时做该操作。如果集群比较繁忙，edits log就会变得很大，这样在namenode启动时，就会需要大量时间来执行edits log中的事务。

Secondary Namenode定时合并edits log 到fsimage，来保证edits log在一个比较小的范围内。一般情况下，Secondary namenode与 Namenode节点在不同的机器上。

（2）常用配置项：

dfs.namenode.checkpoint.period ：配置两个连续checkpoint之间的时间间隔，默认是1小时。

dfs.namenode.checkpoint.txns ：配置设置强制checkpoint的最大的事务数，默认是1 million，如果上边的时间未达到，但是达到了这个设置的事务数，业务触发checkpoint（Secondary Namenode合并fsimage和edits log）。

（3）配置Secondary Namenode节点：

<property>

<name>dfs.namenode.secondary.http-address</name>

<value>hadoop-namenode.ipma.com:50090</value>

</property>

3. Yarn

1. Yarn基本概念名词介绍：

在hadoop 0.x版本，mapreduce执行所有的功能，从hadoop 2.x开始，开始分出mapreduce和yarn。

JobTracker分出2个功能：资源管理、作业调度/监控。 ResourceManager 、 ApllicationMaster.

ResourceManager：管理系统资源、任务调度；Applications管理（启动/监控ApplicationMaster）；处理客户端请求；监控namenode。

ApplicationMaster : 从ResourceManager申请资源；和Namenode一起执行和监控任务；作为job任务的管理者。

resource Container：对任务运行环境的抽象；包含内存、cpu、磁盘、网络等一系列信息；任务运行资源、任务启动命令、任务运行环境。

NodeManager：单个节点上的资源管理和任务管理、处理来自ResourceManager的命令；处理来自ApplicationMaster的命令。

2. Yarn任务运行流程：

Yarn任务执行流程

（1）resourcemanager收到客户端请求。

（2）resourcemanager会去生产一个application master，作为当前job任务的管理者。会随机的在某一个namenode上产生一个Application Master。

（3）application master再去向resource manager申请资源。

（4）resource manager响应application master的资源申请。

（5）application master分派任务给其他nodemanager(container)。

（6）nodemanager接受到任务指派以后，开始执行job任务。

（7）nodemanager执行完成以后向管理者报告。

（8）application master向resourcemanager报告。

网友评论

大数据架构

本文标题：3.Hadoop 2.x 深度内容

本文链接：https://www.haomeiwen.com/subject/iftomttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

3.Hadoop 2.x 深度内容

1. HDFS架构：

1. 架构综述：

2. Namenode功能：

3. DataNode功能：

4. DataBlock Replication

5. 安全模式（safemode）：

2. Secondary Namenode

3. Yarn

1. Yarn基本概念名词介绍：

相关文章

3.Hadoop 2.x 深度内容

Spring全家桶、Dubbo、分布式、消息队列后端必备全套开

ubuntu16.04 spark连接hadoop配置

从零开始构建springboot 2.x Web项目【持续更新】

16-Hive快速入门与一个月总结

vue2.x和vue3.0在scss样式中使用深度选择器的区别

Hive SQL 相关

Vue项目结合Element-UI的两种方式

洋葱阅读法2022-03-13第六章深度阅读

5. Python输入-输出

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据架构