HDFS概述

作者: _Unique_楠楠 | 来源:发表于2020-05-20 09:38 被阅读0次

    1.背景

    为了解决超大文件的存储和管理,应运而生的系统,HDFS是一个<u style="box-sizing: border-box;">分布式文件系统</u>

    2.定义

    **HDFS适用于一次存储,多次读取且不支持修改</u>,适合做数据分析,不适合做网盘应用。

    3.优缺点

    3.1 优点

    • 高容错性

      • 数据自动保存多个副本,通过增加副本的形式,提高容错性

      • 某个副本丢失后,塔可以自动的恢复(再另一个节点上重新创建一份副本)

    • 适合处理大数据

      • 数据规模:能够达到GB、TB甚至是PB级别的数据

      • 文件规模:能够处理百万规模以上的文件数量

    • 可构建在廉价的机器上,通过多副本特性,提高可靠性

    3.2缺点

    • 不适合低延时数据的访问

    • 无法高效的处理小文件(文件块大小默认128G

      • 存储大量小文件,会占用NameNode大量内存来存储文件目录和块信息

      • 小文件存储的寻址时间甚至或超过读取时间

    • 不支持文件的并发写入,不允许多个线程同时写

      [图片上传失败...(image-289ff3-1589880795746)]

    • 仅支持数据的追加,不支持文件的随机修改

    4.Hdfs架构组成

    image

    [图片上传失败...(image-f5a1ce-1589880795746)]******

    5.Hdfs 文件块大小*重点

    hdfs在物理中是通过块存储的,2.x版本默认大小128M,老版本是64M。块的大小可以通过(dfs.blocksize)参数来控制。

    ******[图片上传失败...(image-25375b-1589880795746)]******

    ****** image

    ******

    ******6.Hdfs 写数据流程******

    ****** image

    ******

    • ******NameNode会根据节点距离和一定负载策略来决定给客户端返回哪些dataNode进行写入******

      ******节点距离:两个节点到达共同祖先的距离总和******

      ******[图片上传失败...(image-113ddd-1589880795746)]******

    • ******机架感知 - 副本节点的选择******

      • ******主要考虑两点,节点距离产生的IO效率,和容灾安全性******
    ****** image

    ******

    ******7.Hdfs - 读数据流程******

    ****** image

    ******

    相关文章

      网友评论

        本文标题:HDFS概述

        本文链接:https://www.haomeiwen.com/subject/fwabohtx.html