美文网首页
第3章 Hadoop分布式文件系统 学习笔记(二)

第3章 Hadoop分布式文件系统 学习笔记(二)

作者: 主君_05c4 | 来源:发表于2019-04-28 14:44 被阅读0次

    3.6 数据流

    3.6.1 剖析文件读取

    客户端读取HDFS数据.png
    • 1、客户端调用DistributedFileSystem.open方法以打开希望读取的文件,DistributedFileSystem初始化的时候(参见:java.util.ServiceLoader加载服务实现类)创建了一个DFSClient实例,DFSClient通过RPC向namenode发送请求获取文件块位置,对于每个数据块,namenode返回该块所有复本datanode地址,这些datanode根据它们与客户端的距离排序,若客户端本身就是一个datanode,那么该客户端会从本地读取数据。
    • 2、DistributedFileSystem.open返回一个FSDataInputStream对象,该对象封装了一个DFSInputStreamDFSInputStream封装了DFSClient、Datanode、LocatedBlock
    • 3、FSDataInputStream.read,反复调用,达到块末端,DFSInputStream关闭与datanode连接,寻找下一个块的最佳datanode。若DFSInputStream与datanode通信时发生错误,会尝试从邻近datanode读取数据。

    可以将namenode理解为服务发现组件,datanode为真正服务响应组件。

    • 带宽很稀缺,将两节点间带宽作为距离的衡量标准。
      如下场景,可用带宽依次递减:
      distance(/d1/r1/n1, /d1/r1/n1) = 0(同一节点上进程)
      distance(/d1/r1/n1, /d1/r1/n2) = 2(同机架不同节点)
      distance(/d1/r1/n1, /d1/r2/n3) = 4(同数据中心不同机架)
      distance(/d1/r1/n1, /d2/r3/n4) = 6(不同数据中心)

    3.6.2 剖析文件写入

    HDFS文件写入.png
    • 1、DistributedFileSystem.create创建文件,DistributedFileSystem向namenode发送文件创建RPC请求,namenode检查文件是否存在及用户是否有创建文件权限,若不通过,抛出IO异常
    • 2、DistributedFileSystem返回一个FSDataOutputStream,其封装了一个DFSOutputStream,该对象负责datanode与namenode间通信
    • 3、客户端写入数据时,DFSOutputStream将它分成一个个数据包,并写入内部队列(数据队列data queue),DataStreamer处理数据队列,先挑选一组适合存储数据复本的datanode,并据此要求namenode分配新的数据块,这组datanode构成一个管线,DataStreamer将数据包流式传输到第一个datanode,该datanode存储数据包并将它发送到第二个datanode,同样第二个往第三个datanode传输数据。
    • 4、DFSOutputStream维护一个内部数据包队列(确认队列ack queue),管道中所有datanode发送ack消息后,数据包才从队列移除。

    复本存放

    • 1、运行客户端的节点存放第一个复本,若客户端运行于集群之外,则随机选择一个节点,系统会尽量避免选择磁盘太满或太忙节点;
    • 2、第2个复本存放于不同机架随机节点(离架)
    • 3、第3个复本与第2个复本同一个机架,不同节点
    • 4、其他节点随机存放,尽量不在同一机架存放太多复本

    3.6.3 一致模型(coherency model)

    • 1、新建文件,立即可见
    • 2、写入文件内容(即使已刷新并存储,out.flush()),不保证立即可见,当写入的数据超过一个块,第一个块对新reader可见,正在写入的块对其他reader不可见。

    两种强刷缓存至所有datanode手段

    • FSDataInputStream.hflush()后,FSDataInputStream.close()隐含执行了hflush()方法,HDFS保证文件中到目前为止写入的数据均到达所有datanode写入管道并对所有reader可见,不保证数据写入磁盘,可能丢失;
    • FSDataInputStream.hsync()后,刷新到磁盘。

    调用hflush存在额外性能开销,hsync性能开销更大,需要在数据鲁棒性和性能之间取得平衡。

    相关文章

      网友评论

          本文标题:第3章 Hadoop分布式文件系统 学习笔记(二)

          本文链接:https://www.haomeiwen.com/subject/hpylgqtx.html