HDFS概述

作者: _Unique_楠楠 | 来源:发表于2020-05-20 09:38 被阅读0次

1.背景

为了解决超大文件的存储和管理，应运而生的系统，HDFS是一个<u style="box-sizing: border-box;">分布式文件系统</u>

2.定义

**HDFS适用于一次存储，多次读取且不支持修改</u>，适合做数据分析，不适合做网盘应用。

3.优缺点

3.1 优点

高容错性
- 数据自动保存多个副本，通过增加副本的形式，提高容错性
- 某个副本丢失后，塔可以自动的恢复(再另一个节点上重新创建一份副本)
适合处理大数据
- 数据规模：能够达到GB、TB甚至是PB级别的数据
- 文件规模：能够处理百万规模以上的文件数量
可构建在廉价的机器上，通过多副本特性，提高可靠性

3.2缺点

不适合低延时数据的访问
无法高效的处理小文件（文件块大小默认128G
- 存储大量小文件，会占用NameNode大量内存来存储文件目录和块信息
- 小文件存储的寻址时间甚至或超过读取时间
不支持文件的并发写入，不允许多个线程同时写

[图片上传失败...(image-289ff3-1589880795746)]
仅支持数据的追加，不支持文件的随机修改

4.Hdfs架构组成

image

[图片上传失败...(image-f5a1ce-1589880795746)]******

5.Hdfs 文件块大小*重点

hdfs在物理中是通过块存储的，2.x版本默认大小128M，老版本是64M。块的大小可以通过(dfs.blocksize)参数来控制。

******[图片上传失败...(image-25375b-1589880795746)]******

******

image

******

6.Hdfs 写数据流程

******

image

******

******NameNode会根据节点距离和一定负载策略来决定给客户端返回哪些dataNode进行写入******

******节点距离：两个节点到达共同祖先的距离总和******

******[图片上传失败...(image-113ddd-1589880795746)]******
******机架感知 - 副本节点的选择******
- ******主要考虑两点，节点距离产生的IO效率，和容灾安全性******

******

image

******

7.Hdfs - 读数据流程

******

image

******

网友评论

大数据

本文标题：HDFS概述

本文链接：https://www.haomeiwen.com/subject/fwabohtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

HDFS概述

1.背景

2.定义

3.优缺点

3.1 优点

3.2缺点

4.Hdfs架构组成

5.Hdfs 文件块大小*重点

6.Hdfs 写数据流程

7.Hdfs - 读数据流程

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据

HDFS概述

1.背景

2.定义

3.优缺点

3.1 优点

3.2缺点

4.Hdfs架构组成

5.Hdfs 文件块大小*重点

******6.Hdfs 写数据流程******

******7.Hdfs - 读数据流程******

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据

6.Hdfs 写数据流程

7.Hdfs - 读数据流程