注:本文涉及书中3.9小结
Hadoop存档
1. 综述
Hadoop存档文件或HAR文件,是一个高效的文件存档工具,它将文件存入HDFS块,在减少namenode内存使用的同时,允许对文件进行透明地访问。具体来说,Hadoop存档文件可以用作MapReduce的输入。
个人理解:为什么需要Hadoop存档文件?
Hadoop存档文件的出现,可以解决HDFS的小文件处理问题。
某博客对Hadoop存档的详细解释:https://blog.csdn.net/helloxiaozhe/article/details/79159799
2. 创建工具
Hadoop存档是通过archive工具根据一组文件创建而来的,Hadoop存档文件可以用作MapReduce的输入。
3. 缺点
(1)新建一个存档文件会创建原始文件的一个副本,因此至少需要与要存档的文件容量相同大小的磁盘空间。
(2)存档文件在创建后不能进行修改。
网友评论