大数据系列文章-Hadoop的HDFS读写流程（二）

大数据系列文章-Hadoop的HDFS读写流程（二）

作者: 非法小恋 | 来源:发表于2019-06-06 08:56 被阅读0次

Hadoop HDFS 数据读写流程分析
大数据系列文章-Hadoop的HDFS读写流程（二）
HDFS 1. 读写流程剖析
搭建大数据平台系列(2)-zookeeper环境搭建
搭建大数据平台系列(3)-hbase环境搭建
大数据技术之HDFS（四）
HDFS MapReduce
大数据基础之Hadoop和Spark
Hadoop HDFS 数据读写操作
Java大数据学习~Hadoop初识三Yarn模式

在介绍HDFS读写流程时，先介绍下Block副本放置策略。

Block副本放置策略

第一个副本：放置在上传文件的DataNode；如果是集群外提交，则随机挑选一台磁盘不太满，CPU不太忙的节点。
第二个副本：放置在与第一个副本不同的机架的节点上。
第三个副本：与第二个副本相同机架的节点。
更多副本：随机节点。

HDFS副本放置策略

HDFS写流程

HDFS写流程

客户端发请求给NameNode，我想保存一个文件A，这时候在NameNode会有一个标识，标识为A_copy（文件不可用）。
根据副本放置策略，返回三个副本的可放置位置列表，且默认为sort排好顺序的。
客户端主动去和离自己最近的DataNode连接（暂且叫DN1）,然后DN1后续的DN2进行连接，DN2在和DN3进行连接。（串联方式Pipeline）
客户端读取源文件，对该Block进行更小的切割，
- 第一次：传递第一个Block中的第一个小包给DN1。
- 第二次：传递第一个Block中的第二个小包给DN1，与此同时，DN1中的第一个小包传递给DN2。
- 第三次：传递第一个Block中的第三个小包给DN1，与此同时，DN1中的第二个小包传递给DN2，DN2传递第一个小包给DN3.
- 依次类推

（Block切割更小的小包，这里这么设计的好处是时间不重叠。如果不切，一次性传递例如64M，当传递DN1时，等待，传递DN2时，继续等待，传递DN3时，还在等，造成时间浪费。另外的一个好处时，如果增加节点，时间影响不大）

最后通过DataNode与NameNode心跳，通知是否文件彻底传递完毕，补全NameNode中元数据的位置信息。

HDFS读流程

HDFS读流程

客户端发请求给NameNode，NameNode将这个文件的元数据找到，告知给客户端（例如文件A，被切割为5个Block,元文件会纪录Block1：DN1,DN2,DN3,Block2：DN1,DN4,DN5等等依次类推）
客户端直接向DataNode请求Block数据（遵循距离优先）
当把所有的Block下载回本地后，进行验证每个Block元信息的MD5。如果每个Block都是正确的，没有被破坏，开始进行拼接，最终文件就被还原回来了。

HDFS文件权限

与Linux文件权限类似
- r:read;w:write;x:execute
- 权限x对应文件忽略，对于文件夹表示是否允许访问其内容
如果Linux系统用户zhangyongli使用Hadoop命名创建一个文件，那么这个文件在HDFS中owner就是zhangyongli
HDFS的权限目的，阻止好人做错事，而不是阻止坏人做坏事。HDFS相信，你告诉我你是谁，我就认为你是谁。

解释：

阻止好人做错事：例如AB两个用户，A用户创建了一个X文件，B用户创建了一个Y文件，B用户删除不了A用户的文件X。
阻止坏人做坏事：如果AB两个用户中的某个坏人，装了一台全新的linux系统，也创建AB用户，补全Hadoop部署文件内容，客户端程序，然后用新系统的A向NameNode去删除X文件，由于NameNode是被动受信，所以未来需要集成kerberos来防止这种操作。
（转发请注明出处：https://www.jianshu.com/u/829cbce64381 如发现有错，请留言，谢谢）

相关文章

Hadoop HDFS 数据读写流程分析
本文转载自《Hadoop HDFS 数据读写流程分析》，该文对Hdfs的读写流程分析之简洁明了，令人叹服。 HDF...
大数据系列文章-Hadoop的HDFS读写流程（二）
在介绍HDFS读写流程时，先介绍下Block副本放置策略。 Block副本放置策略第一个副本：放置在上传文件的D...
HDFS 1. 读写流程剖析
HDFS读写流程剖析本文为《Hadoop The Definitive Guide 4th Edition》的...
搭建大数据平台系列(2)-zookeeper环境搭建
目前本系列文章有：搭建大数据平台系列(0)-机器准备搭建大数据平台系列(1)-Hadoop环境搭建[hdfs,ya...
搭建大数据平台系列(3)-hbase环境搭建
目前本系列文章有：搭建大数据平台系列(0)-机器准备搭建大数据平台系列(1)-Hadoop环境搭建[hdfs,ya...
大数据技术之HDFS（四）
HDFS 的读写流程 4.1 HDFS 写数据流程 4.1.1 剖析文件写入（1）客户端通过 Distrib...
HDFS MapReduce
hdfs的读写流程 hdfs写数据 1）客户端通过DistributedFileSystem模块向namenod...
大数据基础之Hadoop和Spark
大数据基础 Hadoop背景起源一 HDFS Hadoop背景起源二 MapReduce Hadoop背景起源三 ...
Hadoop HDFS 数据读写操作
目标 HDFS遵循一次写入多次读取模型。所以我们不能编辑已经在HDFS系统中存储的文件，但是我们可以重新打开文件，...
Java大数据学习~Hadoop初识三Yarn模式
在上篇文章中我们简单的学习了HDFS简单架构，还有最重要的读写流程。我们都知道在如今的Hadoop中主要有三个重要...

网友评论

本文标题：大数据系列文章-Hadoop的HDFS读写流程（二）

本文链接：https://www.haomeiwen.com/subject/mtzrzqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|大数据系列文章-Hadoop的HDFS读写流程（二）|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！