【大数据技术】HDFS原理性知识总结

【大数据技术】HDFS原理性知识总结

作者: 江澈_SIMON | 来源:发表于2020-11-30 00:17 被阅读0次

【大数据技术】HDFS原理性知识总结
华为认证 HCIA-Big_Data_V2.0习题汇总
HDFS技术原理
大数据入门 | 三、分布式文件系统HDFS
好程序员大数据培训教程分享HDFS总结
如何建立认知体系
大数据存储与管理
hive部署的3种模式，及应用差异
成都大数据开发技术知识点，加米谷大数据培训
Hadoop框架：HDFS简介与Shell管理命令

一、HDFS现有不足：

1、不适低延时数据访问
2、无法高效的大量小文件进行存储
出现原因：
· 小文件会占用NameNode大量内存来存储该文件的目录和块信息，每个小文件需要150字节。
· 小文件存储和读取的寻址时间，超过了文件读取时间。
解决办法：①使用自带组件har定期归档小文件 ②手动定期批量合并小文件
3、不支持并发写入、文件随机修改
· 一个文件只能一个线程写入，不允许多个线程同时写
· 仅支持数据append（追加），不支持文件的随机修改

二、HDFS写数据流程

hdfs写数据流程

HDFS文件系统写操作的流程：

1、HDFS client通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在。

2、Namenode响应给客户端可以上传文件

3、请求上传第一个Block（0-128M），请求NameNode返回上传的datanode的地址

4、namonode返回dn1,dn2,dn3，表示采用这三个节点存储数据

5、请求建立Block传输通道DataNode1->DataNode2->DataNode3

6、传输数据（使用64K的packet小包传输）先从磁盘读取数据到一个本地内存缓存（buffer），通过内存读取数据->传输到磁盘（以packet单位），每传递一个packet，另外启动一个线程从内存缓存中读取数据->传输给下一个节点（重复相同操读取-存储-传递-应答），每传一个packet完毕（dn3完成后）会放入应答队列，所有（dataNode）节点接收应答后，

7、写入数据完毕后，Client在文件输出流（FSDataOutputStream）对象上调用close方法，关闭流

8、调用DistributedFileSystem对象的complete方法，通知NameNode文件写入成功

链接：源码分析

三、HDFS读数据流程

1.png

1）客户端通过Distributed FileSystem向NameNode请求下载文件，NameNode通过查询元数据（文件位置，文件所在节点等信息），找到文件块所在的DataNode地址。
2）挑选一台DataNode（就近原则，然后随机）服务器，请求读取Block1数据。
3）DataNode开始传输数据给客户端
4）客户端以Packet为单位接收，先在本地缓存，然后写入目标文件。
5）读取文件时按Block读取，一个Block默认是128MB，读取完Block1，接着会请求读取Block2

读取DataNode时的数据校验
1）当DataNode读取Block的时候，它会计算CheckSum（数据校验和）。
2）如果计算后的CheckSum，与Block创建时值不一样，说明Block已经损坏。
3）Client读取其他DataNode上的Block。

四、HDFS核心组件

NameNode的作用

1、维护HDFS的目录树
2、响应用户请求
写数据时，返回给客户端要操作的DataNode的节点信息
读数据时，返回给客户端目标文件的元数据（文件位置，文件所在节点等信息）
3、管理元数据（FsImage和edit）

Edits：分为正在滚动记录操作的edit_inprogress_00X & 以往操作的tag（标签）edit_00X
FsImage：HDFS文件系统（整个系统）的一个永久性的检查点（相当于快照），包括HDFS文件系统的所有目录和文件的元数据信息（idnode）（文件对象序列化后的信息）

每次NameNode启动时，都会将FsImage和Edits加载进内存（所以Edits不能太大，引出了SecondaryNameNode的checkPoint操作）

namenode的checkpoint工作机制

SecondaryNameNode的作用

1）checkPoint：

SecondaryNameNode：合并NameNode的edit到FsImage中，这个操作叫做checkPoint
1、首先，他定时（默认1小时）到NameNode去获取Edit_inprogress保存到本地（获取前，先在NameNode中创建新的Inprogress文件，写入新的操作日志），将Edit和FsImage合并，生成FsImage.checkPoint。（Edit_inprogress满了也会执行此操作）

2、把生成的FsImage.checkPoint文件拷贝到NameNode中，重命名为FsImage_00X
3、NameNode下次重启时会加载这个新的Fsimage文件，从而减少启动时间

2）恢复NameNode

当NameNode中文件丢失时，可以手动复制2nn的hadoop/data/secondaryname/current中的文件到NameNode的/data/name/current中，重启NameNode。

DataNode作用 DataNode工作机制

1）一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。
2）DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息。
3）心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳，则认为该节点不可用。
4）集群运行中可以安全加入（配置好新机器，直接单启新机器，如果数据不均衡可以使用./start-balancer.sh）和安全退出一些机器（使用dfs.host.exclude属性）

TIPS：
1）文件的序列化信息
haddop是java编写的，在java中“一切皆对象”，所以文件也是一个对象，实现Writable和Comparable接口，使FileStatus可序列化

FileStatus的实现

目录和文件对象序列化后的信息，存储在本地文件（FsImage）中

2）写文件三个单位和三层缓存
block（最终存储单位，默认128MB）、packet（输出传输单位，默认64K）与chunk（数据校验单位，默认512B）

image.png

相关文章

【大数据技术】HDFS原理性知识总结
一、HDFS现有不足： 1、不适低延时数据访问2、无法高效的大量小文件进行存储出现原因：· 小文件会占用NameN...
华为认证 HCIA-Big_Data_V2.0习题汇总
章节主题第01章大数据行业与技术趋势第02章HDFS技术原理第03章MapReduce和YARN技术原理第04章S...
HDFS技术原理
发自简书 HDFS概述及应用场景 HDFS在FusionInsight产品的位置 HDFS系统架构关键特性介绍 ...
大数据入门 | 三、分布式文件系统HDFS
本文大部分内容转自初步掌握HDFS的架构及原理，并参考了网易云课堂《大数据技术原理与应用》课程Chapter 3的...
好程序员大数据培训教程分享HDFS总结
好程序员大数据培训教程分享HDFS总结，HDFS介绍 HDFS(Hadoop Distributed File S...
如何建立认知体系
一、布鲁姆认知分类法 1.事实性知识单点知识，各个概念的描述和细节 2.概念性知识框架性知识，原理、抽象总结，...
大数据存储与管理
大数据存储与管理本节主要讲述大数据存储与管理技术的概念和原理，包括Hadoop分布式文件系统(HDFS)和分布式...
hive部署的3种模式，及应用差异
1、hive的技术原理 hive是基于Hadoop的数据仓库系统，可以查询、分析和存储在HDFS 分布式文件系统中...
成都大数据开发技术知识点，加米谷大数据培训
Hadoop核心 (1) 分布式存储基石：HDFS HDFS简介入门演示构成及工作原理解析：数据块，NameN...
Hadoop框架：HDFS简介与Shell管理命令
一、HDFS基本概述 1、HDFS描述大数据领域一直面对的两大核心模块：数据存储，数据计算，HDFS作为最重要的...

网友评论

本文标题：【大数据技术】HDFS原理性知识总结

本文链接：https://www.haomeiwen.com/subject/xuzkwktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|【大数据技术】HDFS原理性知识总结|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！