HDFS(四)：HDFS 读写流程

作者: codeMover | 来源:发表于2021-12-04 23:07 被阅读0次

HDFS的写数据流程

4.0 hafd写入流程.jpg

1）客户端通过DistributedFileSystem模块想NameNode请求上传文件，NameNode检查目标文件是否存在，父目录是否存在。
2）NameNode返回是否可以上传
3）客户端请求第一个Block上传到那几个DataNode服务器上
4）NameNode返回3哥DataNode节点，分别为dn1、dn2、dn3
5）客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续吊用dn2，然后dn2调用dn3，将这个通信管道建立完成
6）dn1、dn2、dn3逐级应答客户端
7）客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个package都会放入一个应答队列等待应答。
8）当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器（重复执行3～7步）。

网络拓扑-节点距离计算

在HDFS写数据过程中，NameNode会选择距离上传数据最近距离的DataNode接收数据。
节点距离：两个节点到达最近的公共祖先的距离总和。

4.1 节点距离计算.jpg

机架感知-副本存储节点选择

第一个副本在Client所处的节点上，如果客户在集群外，随机选一个。
第一个副本保证速度：
第二个副本在另一个机架的随机一个节点。
第二个副本保证可靠性：
第三个副本在第二个副本所在机架的随机节点。
第三个副本保证可靠性同时考虑速度。
Crtl + n 查找BlockPlacementPolicyDefault，在该类中查找chooseTargetInOrder方法。该类在hadoop-hafs对应jar包。

    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-hdfs</artifactId>
      <version>3.1.3</version>
    </dependency>

HDFS的读数据流程

4.2 hdfs读数据流程.jpg

1）客户端通过DistributedFileSystem向NameNode请求下载数据，NameNode通过查询元数据，找到文件块所在的DataNode地址。
2）挑选一台DataNode（就近原则，然后随机）服务器，请求读取数据。
3）DataNode开始传输数据给客户端（从磁盘里面读取数据输入流，以Packet为单位来做检验）。
4）客户端以Packrt为单位接受，先在本地缓存，然后写入目标文件。

小结

本节是hdfs属于重点理解部分，注意写入数据是找到一个dn1节点，dn1一方面将数据同步到磁盘，另一方面将数据传给后面dn2；另外要注意的是hdfs的读数据流程是串行读；另外一个怎样选择节点（同一机器，同一机架，同一网络）。

网友评论

hadoop

本文标题：HDFS(四)：HDFS 读写流程

本文链接：https://www.haomeiwen.com/subject/ecymxrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

HDFS(四)：HDFS 读写流程

HDFS的写数据流程

网络拓扑-节点距离计算

机架感知-副本存储节点选择

HDFS的读数据流程

小结

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

hadoop