关于Hadoop小文件的解决方法

作者: 大道至简_6a43 | 来源:发表于2020-02-14 23:52 被阅读0次

关于Hadoop小文件的解决方法
【Hadoop】Hadoop 小文件处理
大数据面试 | 06 我看了10篇文章，总结出的Hadoop小
大数据面试 | 07 从这5个方面入手，回答好Hadoop 优
hadoop 小文件
hadoop小文件问题
Hadoop小文件问题
Hadoop小文件解决方案-基于NameNode内存和MapRe
4. Hadoop之旅——使用篇
Hadoop小文件解决方案-Hadoop小文件的前因后果

Hadoop存档

1．hdfs存储小文件弊端

每个文件均按块存储，每个块的元数据存储在NameNode的内存中，因此hadoop存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。但注意，存储小文件所需要的磁盘容量和存储这些文件原始内容所需要的磁盘空间相比也不会增多。例如，一个1MB的文件以大小为128MB的块存储，使用的是1MB的磁盘空间，而不是128MB。

2．解决存储小文件办法之一

Hadoop存档文件或HAR文件，是一个更高效的文件存档工具，它将文件存入HDFS块，在减少NameNode内存使用的同时，允许对文件进行透明的访问。具体说来，Hadoop存档文件对内还是一个一个独立文件，对NameNode而言却是一个整体，减少了NameNode的内存。归档的过程是以MR的形式进行的，是一个mapreduce任务。

3．实操

（1）需要启动yarn进程

[hadoop@hadoop102 hadoop-2.7.2]$ start-yarn.sh

（2）归档文件

把/user/hadoop目录里面的所有文件归档成一个叫myhar.har的归档文件，并把归档后文件存储到/user/my路径下。

[hadoop@hadoop102 hadoop-2.7.2]$ bin/hadoop archive -archiveName myhar.har -p

/user/hadoop /user/my

（3）查看归档

[hadoop@hadoop102 hadoop-2.7.2]$ hadoop fs -lsr /user/my/myhar.har

[hadoop@hadoop102 hadoop-2.7.2]$ hadoop fs -lsr har:///user/my/myhar.har

（4）解归档文件

[hadoop@hadoop102 hadoop-2.7.2]$ hadoop fs -cp har:/// user/my/myhar.har/*

/user/hadoop

简单记忆，har归档可以理解为，将原来的小文件进行了压缩，将好多小文件压缩成一个打的文件，这样存储时只存储这一份大文件的源文件就可以了，再获取小文件数据时再使用相应的方法查看就可以了。

网友评论

本文标题：关于Hadoop小文件的解决方法

本文链接：https://www.haomeiwen.com/subject/qavsfhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

关于Hadoop小文件的解决方法

相关文章