1.背景
为了解决超大文件的存储和管理,应运而生的系统,HDFS是一个<u style="box-sizing: border-box;">分布式文件系统</u>
2.定义
**HDFS适用于一次存储,多次读取且不支持修改</u>,适合做数据分析,不适合做网盘应用。
3.优缺点
3.1 优点
-
高容错性
-
数据自动保存多个副本,通过增加副本的形式,提高容错性
-
某个副本丢失后,塔可以自动的恢复(再另一个节点上重新创建一份副本)
-
-
适合处理大数据
-
数据规模:能够达到GB、TB甚至是PB级别的数据
-
文件规模:能够处理百万规模以上的文件数量
-
-
可构建在廉价的机器上,通过多副本特性,提高可靠性
3.2缺点
-
不适合低延时数据的访问
-
无法高效的处理小文件(文件块大小默认128G
-
存储大量小文件,会占用NameNode大量内存来存储文件目录和块信息
-
小文件存储的寻址时间甚至或超过读取时间
-
-
不支持文件的并发写入,不允许多个线程同时写
[图片上传失败...(image-289ff3-1589880795746)]
-
仅支持数据的追加,不支持文件的随机修改
4.Hdfs架构组成
image[图片上传失败...(image-f5a1ce-1589880795746)]******
5.Hdfs 文件块大小*重点
hdfs在物理中是通过块存储的,2.x版本默认大小128M,老版本是64M。块的大小可以通过(dfs.blocksize)参数来控制。
******[图片上传失败...(image-25375b-1589880795746)]******
****** image******
******6.Hdfs 写数据流程******
****** image******
-
******NameNode会根据节点距离和一定负载策略来决定给客户端返回哪些dataNode进行写入******
******节点距离:两个节点到达共同祖先的距离总和******
******[图片上传失败...(image-113ddd-1589880795746)]******
-
******机架感知 - 副本节点的选择******
- ******主要考虑两点,节点距离产生的IO效率,和容灾安全性******
******
******7.Hdfs - 读数据流程******
****** image******
网友评论