Hadoop之HDFS

作者: 白纸糊 | 来源:发表于2018-12-26 21:16 被阅读0次

Hadoop文章大全
104_es生产集群备份恢复之部署hadoop hdfs分布式文
Hadoop相关文章索引（2）——Hadoop运维主题
分布式文件系统(HDFS)
【2019-04-28】Hadoop分布式文件系统
深入理解HDFS
HDFS Federation
HDFS知识点总结
Hadoop3.x组件HDFS入门
启动HDFS

第1章 HDFS概述

1.1 HDFS定义

HDFS(Hadoop distributed System),它是一个文件系统，用于存文件，通过目录树定义文件；其次他是分布式的，有很多服务器联合起来实现功能，集群中的服务器有各自的目的。

HDFS的使用场景:适合一次写入，多次读出的场景，且不支持文件的修改。适合做数据分析

1.2 HDFS优缺点
- 1.2.1 优点：
  - 1）高容错
  - 2）适合处理大数据
  - 3）可构建在廉价机器上
- 1.2.2 缺点:
  - 1）不合适低延时数据访问
  - 2）无法高效的对大量小文件进行存储
  - 3）仅支持数据append ，不支持文件随机修改

1.3 HDFS组成架构
- 1）NameNode:就是Master
- 2）DateNode：就是Slave
- 3）Client:客户端
- 4）Secondary NameNode:协助NameNode,定期合Fsimage和Edits
1.4 HDFS文件块大小
- 块存储老版本68M新版128M
- 思考 :不能存太大也不能存太小
- 太小:会增加，寻址时间
- 太大：会增加处理数据时间
- 总结：HDFS块的大小设置取决于磁盘传输速率

第2章 HDFS的Shell操作

1．基本语法
bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令
dfs是fs的实现类。
2．常用命令实操

（0）启动Hadoop集群（方便后续的测试）
[atguigu@hadoop102 hadoop-2.7.2]\$ sbin/start-dfs.sh
[atguigu@hadoop103 hadoop-2.7.2]\$ sbin/start-yarn.sh
（1）-help：输出这个命令参数
[atguigu@hadoop102 hadoop-2.7.2]\$ hadoop fs -help rm
（2）-ls: 显示目录信息
[atguigu@hadoop102 hadoop-2.7.2]\$ hadoop fs -ls /
（3）-mkdir：在HDFS上创建目录
[atguigu@hadoop102 hadoop-2.7.2]\$ hadoop fs -mkdir -p /sanguo/shuguo
（4）-moveFromLocal：从本地剪切粘贴到HDFS
[atguigu@hadoop102 hadoop-2.7.2]\$ touch kongming.txt
[atguigu@hadoop102 hadoop-2.7.2]\$ hadoop fs  -moveFromLocal  ./kongming.txt  /sanguo/shuguo
（5）-appendToFile：追加一个文件到已经存在的文件末尾
[atguigu@hadoop102 hadoop-2.7.2]\$ touch liubei.txt
[atguigu@hadoop102 hadoop-2.7.2]\$ vi liubei.txt
输入
san gu mao lu
[atguigu@hadoop102 hadoop-2.7.2]\$ hadoop fs -appendToFile liubei.txt /sanguo/shuguo/kongming.txt
（6）-cat：显示文件内容
[atguigu@hadoop102 hadoop-2.7.2]\$ hadoop fs -cat /sanguo/shuguo/kongming.txt
（7）-chgrp 、-chmod、-chown：Linux文件系统中的用法一样，修改文件所属权限
[atguigu@hadoop102 hadoop-2.7.2]\$ hadoop fs  -chmod  666  /sanguo/shuguo/kongming.txt
[atguigu@hadoop102 hadoop-2.7.2]\$ hadoop fs  -chown  atguigu:atguigu   /sanguo/shuguo/kongming.txt
（8）-copyFromLocal：从本地文件系统中拷贝文件到HDFS路径去
[atguigu@hadoop102 hadoop-2.7.2]\$ hadoop fs -copyFromLocal README.txt /
（9）-copyToLocal：从HDFS拷贝到本地
[atguigu@hadoop102 hadoop-2.7.2]\$ hadoop fs -copyToLocal /sanguo/shuguo/kongming.txt ./
（10）-cp ：从HDFS的一个路径拷贝到HDFS的另一个路径
[atguigu@hadoop102 hadoop-2.7.2]\$ hadoop fs -cp /sanguo/shuguo/kongming.txt /zhuge.txt
（11）-mv：在HDFS目录中移动文件
[atguigu@hadoop102 hadoop-2.7.2]\$ hadoop fs -mv /zhuge.txt /sanguo/shuguo/
（12）-get：等同于copyToLocal，就是从HDFS下载文件到本地
[atguigu@hadoop102 hadoop-2.7.2]\$ hadoop fs -get /sanguo/shuguo/kongming.txt ./
（13）-getmerge：合并下载多个文件，比如HDFS的目录 /user/atguigu/test下有多个文件:log.1, log.2,log.3,...
[atguigu@hadoop102 hadoop-2.7.2]\$ hadoop fs -getmerge /user/atguigu/test/* ./zaiyiqi.txt
（14）-put：等同于copyFromLocal
[atguigu@hadoop102 hadoop-2.7.2]\$ hadoop fs -put ./zaiyiqi.txt /user/atguigu/test/
（15）-tail：显示一个文件的末尾
[atguigu@hadoop102 hadoop-2.7.2]\$ hadoop fs -tail /sanguo/shuguo/kongming.txt
（16）-rm：删除文件或文件夹
[atguigu@hadoop102 hadoop-2.7.2]\$ hadoop fs -rm /user/atguigu/test/jinlian2.txt
（17）-rmdir：删除空目录
[atguigu@hadoop102 hadoop-2.7.2]\$ hadoop fs -mkdir /test
[atguigu@hadoop102 hadoop-2.7.2]\$ hadoop fs -rmdir /test
（18）-du统计文件夹的大小信息
[atguigu@hadoop102 hadoop-2.7.2]\$ hadoop fs -du -s -h /user/atguigu/test
2.7 K  /user/atguigu/test
[atguigu@hadoop102 hadoop-2.7.2]\$ hadoop fs -du  -h /user/atguigu/test
1.3 K  /user/atguigu/test/README.txt
15     /user/atguigu/test/jinlian.txt
1.4 K  /user/atguigu/test/zaiyiqi.txt
（19）-setrep：设置HDFS中文件的副本数量
[atguigu@hadoop102 hadoop-2.7.2]$ hadoop fs -setrep 10 /sanguo/shuguo/kongming.txt

面试重点

HDFS读写流程

HDFS文件块大小
image.png

Client 切分

QQ图片20181228173418.png

1）客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。
2）NameNode返回是否可以上传。
3）客户端请求第一个 Block上传到哪几个DataNode服务器上。
4）NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。
5）客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。
6）dn1、dn2、dn3逐级应答客户端。
7）客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答。
8）当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。（重复执行3-7步）。

NN和2NN工作机制

image.png

第一阶段：NameNode启动
（1）第一次启动NameNode格式化后，创建Fsimage和Edits文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存。
（2）客户端对元数据进行增删改的请求。
（3）NameNode记录操作日志，更新滚动日志。
（4）NameNode在内存中对元数据进行增删改。
第二阶段：Secondary NameNode工作
（1）Secondary NameNode询问NameNode是否需要CheckPoint。直接带回NameNode是否检查结果。
（2）Secondary NameNode请求执行CheckPoint。
（3）NameNode滚动正在写的Edits日志。
（4）将滚动前的编辑日志和镜像文件拷贝到Secondary NameNode。
（5）Secondary NameNode加载编辑日志和镜像文件到内存，并合并。
（6）生成新的镜像文件fsimage.chkpoint。
（7）拷贝fsimage.chkpoint到NameNode。
（8）NameNode将fsimage.chkpoint重新命名成fsimage。
（1）通常情况下，SecondaryNameNode每隔一小时执行一次。
[hdfs-default.xml]
<property>
<name>dfs.namenode.checkpoint.period</name>
<value>3600</value>
</property>
（2）一分钟检查一次操作次数，
（3）当操作次数达到1百万时，SecondaryNameNode执行一次。

<property>
  <name>dfs.namenode.checkpoint.txns</name>
  <value>1000000</value>
<description>操作动作次数</description>
</property>

<property>
  <name>dfs.namenode.checkpoint.check.period</name>
  <value>60</value>
<description> 1分钟检查一次操作次数</description>
</property >

集群安全模式

image.png

DataNode工作机制

image.png

1）一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。
2）DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息。
3）心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳，则认为该节点不可用。
4）集群运行中可以安全加入和退出一些机器。

服役新数据节点

环境准备
（1）在hadoop104主机上再克隆一台hadoop105主机
（2）修改IP地址和主机名称
（3）删除原来HDFS文件系统留存的文件（/opt/module/hadoop-2.7.2/data和log）
（4）source一下配置文件
[atguigu@hadoop105 hadoop-2.7.2]$ source /etc/profile
服役新节点具体步骤
（1）直接启动DataNode，即可关联到集群
[atguigu@hadoop105 hadoop-2.7.2] $sbin/hadoop-daemon.sh start datanode [atguigu@hadoop105 hadoop-2.7.2]$ sbin/yarn-daemon.sh start nodemanager
如果数据不均衡，可以用命令实现集群的再平衡

[atguigu@hadoop102 sbin]$ ./start-balancer.sh
starting balancer, logging to /opt/module/hadoop-2.7.2/logs/hadoop-atguigu-balancer-hadoop102.out
Time Stamp               Iteration#  Bytes Already Moved  Bytes Left To Move  Bytes Being Moved

退役旧数据节点

添加到白名单的主机节点，都允许访问NameNode，不在白名单的主机节点，都会被退出。
配置白名单的具体步骤如下：
（1）在NameNode的/opt/module/hadoop-2.7.2/etc/hadoop目录下创建dfs.hosts文件

[atguigu@hadoop102 hadoop]$ pwd
/opt/module/hadoop-2.7.2/etc/hadoop
[atguigu@hadoop102 hadoop]$ touch dfs.hosts
[atguigu@hadoop102 hadoop]$ vi dfs.hosts
添加如下主机名称（不添加hadoop105）
hadoop102
hadoop103
hadoop104
    （2）在NameNode的hdfs-site.xml配置文件中增加dfs.hosts属性
<property>
<name>dfs.hosts</name>
<value>/opt/module/hadoop-2.7.2/etc/hadoop/dfs.hosts</value>
</property>
（3）配置文件分发
[atguigu@hadoop102 hadoop]$ xsync hdfs-site.xml
    （4）刷新NameNode
[atguigu@hadoop102 hadoop-2.7.2]$ hdfs dfsadmin -refreshNodes
Refresh nodes successful
    （5）更新ResourceManager节点
[atguigu@hadoop102 hadoop-2.7.2]$ yarn rmadmin -refreshNodes
17/06/24 14:17:11 INFO client.RMProxy: Connecting to ResourceManager at hadoop103/192.168.1.103:8033

黑名单退役

1.在NameNode的/opt/module/hadoop-2.7.2/etc/hadoop目录下创建dfs.hosts.exclude文件

[atguigu@hadoop102 hadoop]$ pwd
/opt/module/hadoop-2.7.2/etc/hadoop
[atguigu@hadoop102 hadoop]$ touch dfs.hosts.exclude
[atguigu@hadoop102 hadoop]$ vi dfs.hosts.exclude

添加如下主机名称（要退役的节点）
hadoop105
2．在NameNode的hdfs-site.xml配置文件中增加dfs.hosts.exclude属性

<property>
<name>dfs.hosts.exclude</name>
      <value>/opt/module/hadoop-2.7.2/etc/hadoop/dfs.hosts.exclude</value>
</property>

3．刷新NameNode、刷新ResourceManager

[atguigu@hadoop102 hadoop-2.7.2]$ hdfs dfsadmin -refreshNodes
Refresh nodes successful

[atguigu@hadoop102 hadoop-2.7.2]$ yarn rmadmin -refreshNodes
17/06/24 14:55:56 INFO client.RMProxy: Connecting to ResourceManager at hadoop103/192.168.1.103:8033

4.检查Web浏览器，退役节点的状态为decommission in progress（退役中），说明数据节点正在复制块到其他节点，如图所示

image.png

[atguigu@hadoop105 hadoop-2.7.2]$ sbin/hadoop-daemon.sh stop datanode
stopping datanode
[atguigu@hadoop105 hadoop-2.7.2]$ sbin/yarn-daemon.sh stop nodemanager
stopping nodemanager

如果数据不均衡，可以用命令实现集群的再平衡

[atguigu@hadoop102 hadoop-2.7.2]$ sbin/start-balancer.sh 
starting balancer, logging to /opt/module/hadoop-2.7.2/logs/hadoop-atguigu-balancer-hadoop102.out
Time Stamp               Iteration#  Bytes Already Moved  Bytes Left To Move  Bytes Being Moved

注意：不允许白名单和黑名单中同时出现同一个主机名称。

Datanode多目录配置

DataNode也可以配置成多个目录，每个目录存储的数据不一样。即：数据不是副本

2．具体配置如下
hdfs-site.xml

<property>
        <name>dfs.datanode.data.dir</name>
<value>file:///${hadoop.tmp.dir}/dfs/data1,file:///${hadoop.tmp.dir}/dfs/data2</value>
</property>

小文件存档

image.png

3．案例实操

（1）需要启动YARN进程
[atguigu@hadoop102 hadoop-2.7.2]$ start-yarn.sh
（2）归档文件
    把/user/atguigu/input目录里面的所有文件归档成一个叫input.har的归档文件，并把归档后文件存储到/user/atguigu/output路径下。
[atguigu@hadoop102 hadoop-2.7.2]$ bin/hadoop archive -archiveName input.har –p  /user/atguigu/input   /user/atguigu/output
（3）查看归档
[atguigu@hadoop102 hadoop-2.7.2]$ hadoop fs -lsr /user/atguigu/output/input.har
[atguigu@hadoop102 hadoop-2.7.2]$ hadoop fs -lsr har:///user/atguigu/output/input.har
（4）解归档文件
[atguigu@hadoop102 hadoop-2.7.2]$ hadoop fs -cp har:/// user/atguigu/output/input.har/*    /user/atguigu

Hadoop文章大全
Hadoop之HDFS
104_es生产集群备份恢复之部署hadoop hdfs分布式文
104_es生产集群备份恢复之部署hadoop hdfs分布式文件存储系统 hadoop hdfs是什么的同学，简...
Hadoop相关文章索引（2）——Hadoop运维主题
hadoop运维笔记1 Hadoop集群日常运维 Hadoop运维经验杂谈 Hadoop运维笔记之调整hdfs...
分布式文件系统(HDFS)
分布式文件系统HDFS(Hadoop Distributed File System) HDFS的架构图之基础架构...
【2019-04-28】Hadoop分布式文件系统
Hadoop自带HDFS(hadoop distribute filesystem)。 HDFS 默认数据块 12...
深入理解HDFS
一、HDFS介绍 HDFS（Hadoop Distributed File System）是Hadoop项目的核心...
HDFS Federation
HDFS Federation HDFS Federation是Hadoop最新发布版本Hadoop-0.23.0...
HDFS知识点总结
1. HDFS： HDFS：Hadoop Distributed File System Hadoop 分布式文件...
Hadoop3.x组件HDFS入门
一、HDFS是什么？ HDFS，全称Hadoop Distributed File System，即Hadoop分...
启动HDFS
配置的修改 pom文件 hdfs代码在hadoop-hdfs-project/hadoop-hdfs中，pom中关...

Hadoop之HDFS

第1章 HDFS概述

第2章 HDFS的Shell操作

面试重点

集群安全模式

image.png

DataNode工作机制

服役新数据节点

退役旧数据节点

黑名单退役

Datanode多目录配置

小文件存档

相关文章

Hadoop文章大全

104_es生产集群备份恢复之部署hadoop hdfs分布式文

Hadoop相关文章索引（2）——Hadoop运维主题

分布式文件系统(HDFS)

【2019-04-28】Hadoop分布式文件系统

深入理解HDFS

HDFS Federation

HDFS知识点总结

Hadoop3.x组件HDFS入门

启动HDFS

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读