Hadoop学习笔记——HDFS原理

作者: 文艺复兴young | 来源:发表于2018-02-07 22:32 被阅读0次

Hadoop学习笔记——HDFS原理
HDFS HA 原理
hadoop学习大纲
Hadoop课程大纲
Hadoop课程大纲
Hadoop 课程大纲
hadoop笔记（四）HDFS的shell和api
hadoop学习02
hadoop HDFS原理解析
hadoop2.*学习笔记三（YARN+ MapReduce+E

与RDBMS的优势：

1、计算机硬盘发展的趋势：寻址地址的提升远远不敌传输速率的提升

2、RDBMS传统B树结构小批量处理性能有优势，大数据量明显不及MapReduce

3、RDBMS适合操作结构化数据，Hadoop对半结构化/非结构化数据非常有效

HDFS主要由NameNode、DataNode以及Secondary NameNode组成。其中NameNode是整个分布式文件系统的管理节点，它负责维护文件的元数据信息、文件目录树。DataNode则负责对具体的数据进行分块存储，在hadoop2中默认是128M为一块（如果数据小于128M并不会占用整个128M空间）。Secondary NameNode可以理解为NameNode的助理，在hadoop1当中主要负责从NameNode上下载元数据信息（fsimage,edits），然后把二者合并，生成新的fsimage，在本地保存，并将其推送到NameNode，替换旧的fsimage。

NameNode会在磁盘和内存中各保存一份元数据信息、内存中的元数据信息主要是为了保证读取的速度。NameNode维护的元数据信息主要包括：FIleName、replicas、block-ids、id2host...。FileName是文件名称。replicas是文件在DataNode上存储的副本数量默认为3，block-ids为文件分块的多个blockid集合，id2host则是每一块存储在具体节点上的信息如下图：