Hadoop基本知识点之HDFS

作者: landy8530 | 来源:发表于2017-10-19 22:36 被阅读234次

Hadoop文章大全
hadoop学习大纲
Hadoop课程大纲
Hadoop课程大纲
Hadoop 课程大纲
hadoop基本知识点之HDFS
Hadoop基本知识点之HDFS
Hadoop大数据系列一整体介绍
hadoop 基础笔记
HDFS基本操作命令

自上一篇文章《Hadoop安装与集群配置》之后，需要对hadoop的一些基础知识进行一些总结。此文为HDFS相关的知识点总结。

1.Hadoop组成

Hadoop主要由三大模块组成：

1.1 HDFS

存储模块

    * 分布式文件存储系统
    * 提供了高可靠性、高扩展性和高吞吐率的数据存储服务
    * hdfs典型结构：物理结构+逻辑结构

1.2. YARN

资源调配模块（引擎）（分布式资源管理框架）

    * 负责集群资源的管理和调度

1.3. MapReduce

计算引擎

    * 分布式计算框架（计算向数据移动-->移动计算而非移动数据）
    * 具有易于编程、高容错性和高扩展性的优点

2.HDFS存储模型

    * 文件线性切割成Block：偏移量（offset）
    * Block分散存储在集群节点中
    * 单一文件Block大小一致，文件与文件可以不一致
    * Block可以设置副本数，副本分散在不同的节点中
    * 副本数不要超过节点数量
    * 文件上传可以设置Block大小和副本数
    * 已上传的文件Block副本数可以调整，大小不变
    * 只支持一次写入多次读取，同一时刻只有一个写入者
    * 只能追加，不能修改

3.HDFS架构模型

    * 文件的元数据（metadata）和文件数据是分开存储
    * （主）NameNode存储文件元数据，单节点（posix）
    * （从）DataNode存储文件数据
    * DataNode与NameNode保持心跳，由dataNode提交Block列表
    * HdfsClient（用户）与NameNode交互元数据信息
    * HdfsClient（用户）与DataNode交互文件数据信息

HDFS架构.png

HDFS设计思想.png

4.NameNode

4.1 基于内存存储

    - 只存在内存中（除了初始化和持久化的时候跟硬盘打交道，其余时候全部在内存中操作）
    - 持久化操作（假设内存只有1G，现在数据有1.2G，则需要做持久化）
            * 不存储Block位置信息（由DataNode上报给NameNode）-不存储到fsimage中
            * NameNOde的metadata信息在启动后加载到内存
            * Metadata信息存储到fsimage文件中
            * edits记录对metadata的操作日志（类似redis）

4.2 NameNode主要功能

接受客户端的读写要求
收集DataNode汇报的Block列表信息

4.3 NameNode保存Metadata主要信息

文件Owership和pemissions
文件大小和时间
Block列表（offset等）
Block每个副本的位置（由DataNode上报）

5. DataNode

本地磁盘目录存储数据（Block），文件形式
同时存储Block的元数据信息
启动datanode时，会向namenode汇报block信息
通过向NameNode发送心跳信息保持与其联系（每3秒一次），如果NameNode 10分钟没有收到DataNode的心跳，则认为其已经lost，则将其block信息copy到其他DataNode上

6.HDFS优点

高容错性

 * 数据自动保存多个副本
 * 副本丢失后，自动恢复

适合批处理

 * 移动计算非数据（把计算的逻辑在有数据的地方进行计算）
 * 数据位置暴露给计算框架

适合大数据处理

 * GB TB 甚至PB级数据
 * 百万规模以上的

可构建在廉价的机器上

7.HDFS缺点

无法进行低延迟数据访问

 * 比如毫秒级
 * 低延迟与高吞吐率

小文件存取

 * 占用NameNode大量内存
 * 寻道时间超过读取时间

并发写入、文件随机修改

 * 一个文件只能有一个写者
 * 仅支持append

8.Block副本的放置策略

第一个副本：放置在上传文件的datanode上，如果是集群外提交，则随机挑选一台磁盘不太满，cpu不太忙的节点
第二个副本：放置在第一个副本不同的机架的节点上
第三个副本：与第二个副本相同的机架的节点
更多副本：随机节点

Block副本的放置策略.png

9.HDFS写流程

（待续）

10.HDFS读流程

（待续）

11.总结

HDFS就是一个分余展的大硬盘：分--分块余--可以冗余，展--动态扩展
云计算：分布式计算，分布在不懂服务器中的计算
设计原则：移动计算，而不是移动数据
在生产环境中，nameNode和resourceManager一般情况是在不同机器上，而nodeManageer和datanode一般情况是在同一台机器上（至少离得近）

网友评论

da3054832e70:写得好
landy8530: @Andrew20161024 谢谢😜

本文标题：Hadoop基本知识点之HDFS

本文链接：https://www.haomeiwen.com/subject/utnpuxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Hadoop基本知识点之HDFS

1.Hadoop组成

1.1 HDFS

1.2. YARN

1.3. MapReduce

2.HDFS存储模型

3.HDFS架构模型

4.NameNode

4.1 基于内存存储

4.2 NameNode主要功能

4.3 NameNode保存Metadata主要信息

5. DataNode

6.HDFS优点

7.HDFS缺点

8.Block副本的放置策略

9.HDFS写流程

10.HDFS读流程

11.总结

相关文章

Hadoop文章大全

hadoop学习大纲

Hadoop课程大纲

Hadoop课程大纲

Hadoop 课程大纲

hadoop基本知识点之HDFS

Hadoop基本知识点之HDFS

Hadoop大数据系列一整体介绍

hadoop 基础笔记

HDFS基本操作命令

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Hadoop系

玩转大数据

大数据，机器学习，人工智能