HDFS为Hadoop生态分布式文件存储系统。
其实现分为NameNode及DataNode两部分;
NameNode:
管理文件系统的命名空间,存放文件元数据;
维护文件系统的所有文件和目录、文件与数据块的映射;
记录每个文件中各个块所在数据节点的信息;
DataNode:
存储并检索数据块;
向NameNode更新所存储块的列表;
HDFS优点:
适合大文件存储,支持TB、PB级数据存储,并有副本策略;
构建在廉价的机器上,有容错和恢复机制;
支持流式数据访问,一次写入多次读取效率高;
HDFS缺点:
不适合大量小文件存储;
不适合并发写入,不支持文件随便修改;
不支持随机读等低延时的访问方式;
HDFS写流程


HDFS读流程


网友评论