美文网首页
第3章 Hadoop分布式文件系统 学习笔记(二)

第3章 Hadoop分布式文件系统 学习笔记(二)

作者: 主君_05c4 | 来源:发表于2019-04-28 14:44 被阅读0次

3.6 数据流

3.6.1 剖析文件读取

客户端读取HDFS数据.png
  • 1、客户端调用DistributedFileSystem.open方法以打开希望读取的文件,DistributedFileSystem初始化的时候(参见:java.util.ServiceLoader加载服务实现类)创建了一个DFSClient实例,DFSClient通过RPC向namenode发送请求获取文件块位置,对于每个数据块,namenode返回该块所有复本datanode地址,这些datanode根据它们与客户端的距离排序,若客户端本身就是一个datanode,那么该客户端会从本地读取数据。
  • 2、DistributedFileSystem.open返回一个FSDataInputStream对象,该对象封装了一个DFSInputStreamDFSInputStream封装了DFSClient、Datanode、LocatedBlock
  • 3、FSDataInputStream.read,反复调用,达到块末端,DFSInputStream关闭与datanode连接,寻找下一个块的最佳datanode。若DFSInputStream与datanode通信时发生错误,会尝试从邻近datanode读取数据。

可以将namenode理解为服务发现组件,datanode为真正服务响应组件。

  • 带宽很稀缺,将两节点间带宽作为距离的衡量标准。
    如下场景,可用带宽依次递减:
    distance(/d1/r1/n1, /d1/r1/n1) = 0(同一节点上进程)
    distance(/d1/r1/n1, /d1/r1/n2) = 2(同机架不同节点)
    distance(/d1/r1/n1, /d1/r2/n3) = 4(同数据中心不同机架)
    distance(/d1/r1/n1, /d2/r3/n4) = 6(不同数据中心)

3.6.2 剖析文件写入

HDFS文件写入.png
  • 1、DistributedFileSystem.create创建文件,DistributedFileSystem向namenode发送文件创建RPC请求,namenode检查文件是否存在及用户是否有创建文件权限,若不通过,抛出IO异常
  • 2、DistributedFileSystem返回一个FSDataOutputStream,其封装了一个DFSOutputStream,该对象负责datanode与namenode间通信
  • 3、客户端写入数据时,DFSOutputStream将它分成一个个数据包,并写入内部队列(数据队列data queue),DataStreamer处理数据队列,先挑选一组适合存储数据复本的datanode,并据此要求namenode分配新的数据块,这组datanode构成一个管线,DataStreamer将数据包流式传输到第一个datanode,该datanode存储数据包并将它发送到第二个datanode,同样第二个往第三个datanode传输数据。
  • 4、DFSOutputStream维护一个内部数据包队列(确认队列ack queue),管道中所有datanode发送ack消息后,数据包才从队列移除。

复本存放

  • 1、运行客户端的节点存放第一个复本,若客户端运行于集群之外,则随机选择一个节点,系统会尽量避免选择磁盘太满或太忙节点;
  • 2、第2个复本存放于不同机架随机节点(离架)
  • 3、第3个复本与第2个复本同一个机架,不同节点
  • 4、其他节点随机存放,尽量不在同一机架存放太多复本

3.6.3 一致模型(coherency model)

  • 1、新建文件,立即可见
  • 2、写入文件内容(即使已刷新并存储,out.flush()),不保证立即可见,当写入的数据超过一个块,第一个块对新reader可见,正在写入的块对其他reader不可见。

两种强刷缓存至所有datanode手段

  • FSDataInputStream.hflush()后,FSDataInputStream.close()隐含执行了hflush()方法,HDFS保证文件中到目前为止写入的数据均到达所有datanode写入管道并对所有reader可见,不保证数据写入磁盘,可能丢失;
  • FSDataInputStream.hsync()后,刷新到磁盘。

调用hflush存在额外性能开销,hsync性能开销更大,需要在数据鲁棒性和性能之间取得平衡。

相关文章

  • hadoop介绍

    以下内容是我的学习笔记,网络课程的笔记。出处 Hadoop实现了一个分布式文件系统(Hadoop Distribu...

  • 一. 介绍

    一、hadoop介绍 hadoop版本: cdh5.7.0 二、分布式文件系统HDFS 二 HDFS架构 Mast...

  • hadoop学习02

    hadoop学习笔记 - HDFS - 完全分布式模式 Hadoop完全分布式模式结构 hadoop01hadoo...

  • Hadoop之HDFS

    HDFS 全称 Hadoop Distributed File System - Hadoop分布式文件系统,...

  • HDFS基本原理

    Hadoop (HDFS) Hadoop Distributed File System,分布式文件系统 bloc...

  • HDFS基本架构及原理

    HDFS 概述 HDFS(Hadoop Distributed File System,Hadoop分布式文件系统...

  • 3.HDFS原理

    分布式文件系统 HDFS 是 Hadoop Distributed FIleSystem的简称(hadoop 分布...

  • HDFS

    一、HDFS简介 Hadoop Distributed filesystem:Hadoop分布式文件系统 HDFS...

  • HDFS

    简介 HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据...

  • hadoop-HDFS运行原理

    简介:HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据...

网友评论

      本文标题:第3章 Hadoop分布式文件系统 学习笔记(二)

      本文链接:https://www.haomeiwen.com/subject/hpylgqtx.html