关于Hadoop中hdfs架构了解

作者: Carver_c5f0 | 来源:发表于2017-08-10 21:09 被阅读0次

关于Hadoop中hdfs架构了解
Hadoop HDFS（二）结构解析和名词解释
大数据 Haddoop（二）架构与原理
详解hadoop之一:HDFS架构
Hadoop in Python最佳实践 -Memo
HDFS入门
hadoop HDFS原理解析
分布式文件系统(HDFS)
大数据day05 Hadoop
一. 介绍

hadoop中hdfs的结构图

HDFS:分布式文件系统被设计成适合运行在通用硬件的分布式文件系统。HDFS是一个高度容错的系统，适合部署在廉价服务器上面，适合应用在集群。下面是HDFS的三个特点：

1.超大文件：这里的文件指的是几百Gb甚至几百TB的文件，分别分布在集群中的服务器。而目前已经有存储PB级别的集群了。

2.采用流方式进行数据访问：

（1）而流方式是什么呢？网上很多博主把流式数据方访问比如为流水，特点就是，像流水一样，不是一次过来而是一点一点“流”过来。而你处理流式数据也是一点一点处理。如果是全部收到数据以后再处理，那么延迟会很大，而且在很多场合会消耗大量内存。

（2）一次写入、多次读取 :HDFS存储的数据集作为hadoop的分析对象。在数据集生成后，长时间在此数据集上进行各种分析。每次分析都将设计该数据集的大部分数据甚至全部数据，因此读取整个数据集的时间延迟比读取第一条记录的时间延迟更重要。

3.运行在廉价服务器上

HDFS设计理念之一可以让他运行在廉价硬件上面，即使硬件出现了错误，也可以通过容错策略来保证数据的高可用。

下面是HDFS的概念图

什么是元数据

任何文件系统中的数据分为数据和元数据。数据是指普通文件中的实际数据，而元数据指用来描述一个文件的特征的系统数据，诸如访问权限、文件拥有者以及文件数据块的分布信息(inode...)等等。在集群文件系统中，分布信息包括文件在磁盘上的位置以及磁盘在集群中的位置。用户需要操作一个文件必须首先得到它的元数据，才能定位到文件的位置并且得到文件的内容或相关属性。这里举个例子：元数据在数据库概念设计里面是这样描述的：描述数据的数据，比如在数据库里面建一张表，表名是user，那么user就是元数据，因为系统可以根据元数据来获取user表的信息，比如user表的权限，索引，数据库列名等。

而HDFS就是将巨大的数据变成大量数据的

上面的途中元数据块标识后生成了相应的磁盘块，举个例子，比如一个数据长度为10000通过分片分为三份，分别是0~3333,3333~6666,6666~10000,那么就会在元数据块记录了0~3333数据块分布在磁盘1，存储量为3333字节，检验方式是什么。其他分片数据依次类推。ps下面蒋结合大数据的NameNode和DataNode结合分析，加深元数据理解：