Hadoop 学习番外篇3-小文件处理

作者: Kean_L_C | 来源:发表于2019-05-05 11:57 被阅读0次

Hadoop 学习番外篇3-小文件处理
【Hadoop】Hadoop 小文件处理
大数据面试 | 07 从这5个方面入手，回答好Hadoop 优
hadoop 小文件处理方案
大数据面试 | 06 我看了10篇文章，总结出的Hadoop小
Hadoop HDFS处理大量的小文件
hadoop 小文件
Hadoop优化
hadoop小文件问题
Hadoop小文件问题

代码见：https://github.com/JNUpython/hadoop_spark/tree/master/src/main/java/org/shangu/serialization

image.png

小文件hdfs存储

每个文件都会占用一个block（默认yarn block_size=128mb）,文件多直接导致namenode资源耗尽，

image.png

小文件切片

小文件分块和切片是两个完全不同概念：前者为物理过程，将数据存储在磁盘上；后者为数据读取逻辑处理过程，读取数据作为maptask的输入，因此切片数量直接对应maptask开启的数量。
如果直接采用下面代码读取数据：

FileInputFormat.setInputPaths(job, new Path(args[0]));

因为数据切片，不考虑数据整体大小而是分文件单独考虑那么直接采用该方法就会有4个切片，即多少个小文件对应多少个切片，实际根本不要这么多task，maptask启动也是很费时间。

[INFO ] 2019-05-05 11:39:27,437 method:org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:198)
number of splits:4

上面是利用 FileInputFormat 提交job信息输出切片数量为4，对用4个maptask

小文件切片:CombineTextInputFormat

FileInputFormat运行之前设置：4mb

        job.setInputFormatClass(CombineTextInputFormat.class);
        CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);

        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

切片数量变为1

[INFO ] 2019-05-05 11:53:15,298 method:org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:198)
number of splits:1

网友评论

本文标题：Hadoop 学习番外篇3-小文件处理

本文链接：https://www.haomeiwen.com/subject/tndcoqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Hadoop 学习番外篇3-小文件处理

小文件hdfs存储

小文件切片

小文件切片:CombineTextInputFormat

相关文章

Hadoop 学习番外篇3-小文件处理

【Hadoop】Hadoop 小文件处理

大数据面试 | 07 从这5个方面入手，回答好Hadoop 优

hadoop 小文件处理方案

大数据面试 | 06 我看了10篇文章，总结出的Hadoop小

Hadoop HDFS处理大量的小文件

hadoop 小文件

Hadoop优化

hadoop小文件问题

Hadoop小文件问题

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读