HDFS最核心的概念 “块”
默认64MB 支持面向大规模数据存储 降低分布式节点的寻址开销
HDFS两大组件
- 名称节点 (管家)
FsImage(维护文件系统树及元数据) + EditLog(记录对数据进行的操作)
解决EditLog不断增大的问题:SecondaryNameNode - 数据节点 负责数据存储和读取 数据节点的数据保存在本地Linux文件系统中
HDFS体系结构 主从(Master/Slave)结构模型
命名空间管理:目录、文件和块
通信协议
构建在TCP/IP协议基础上
- 客户端通过可配置的端口向名称节点发起TCP连接,使用客户端协议与名称节点进行交互
- 名称节点和数据节点之间则使用数据节点协议进行交互
- 客户端与数据节点的交互通过RPC实现
HDFS存储原理
- 冗余数据保存 冗余因子默认为3
- 数据保存策略
读取 就近原则 - 数据恢复
名称节点出错:通过第二名称节点备份恢复
数据节点出错:(心跳) 冗余数据备份
数据出错:(校验码) 冗余副本的复制
HDFS读写过程


网友评论