hadoop 切片

作者: spraysss | 来源:发表于2019-11-03 19:04 被阅读0次

hadoop 切片
Hive读取索引文件问题
15.Go_Slice(切片)
Python的高级特性
切片
你能一口说出go中字符串转字节切片的容量嘛？
【golang】slice底层函数传参原理易错点
day02-07clice
Mapreduce切片机制
数据类型

Hadoop的切片计算是通过调用InputFormat接口的getSplits方法完成的

InputFormat

TextInputFormat切片规则

TextFileInputFormat继承至FileInputFormat，它没有重写FileInputFormat的getSpilt方法，所以，计算切片大小是使用父类FileInputFormat的getSpilt方法。FileInputFormat是一个文件一个文件处理的，每个文件至少切一片，FileInputFormat计算切片大小的相关代码如下：

  long splitSize = computeSplitSize(goalSize, minSize, blockSize);
  protected long computeSplitSize(long blockSize, long minSize,
                                  long maxSize) {
    return Math.max(minSize, Math.min(maxSize, blockSize));
  }

可以看出切片大小splitSize是取minSize,blockSize,maxSize三者的中间值，默认情况下

minSize=1，blockSize=128M，maxSize=Long.MAX_VALUE

所以，默认情况，splitSize=blockSize=128M,其中：

minsize 通过mapreduce.input.fileinputformat.split.minsize参数控制
maxsize 通过mapreduce.input.fileinputformat.split.maxsize参数控制

CombineFileInputFormat切片规则

CombineFileInputFormat 切片会合并小文件，可以避免不必要的maptask

网友评论

Hadoop

本文标题：hadoop 切片

本文链接：https://www.haomeiwen.com/subject/fjqlbctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

hadoop 切片

TextInputFormat切片规则

CombineFileInputFormat切片规则

相关文章

hadoop 切片

Hive读取索引文件问题

15.Go_Slice(切片)

Python的高级特性

切片

你能一口说出go中字符串转字节切片的容量嘛？

【golang】slice底层函数传参原理易错点

day02-07clice

Mapreduce切片机制

数据类型

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Hadoop