MapTask并行度机制

Map阶段的并行取决于切片

FileInputFormat当中有getSplits方法，当中有compute

Math.max(minSize, Math.min(maxSize, blockSize));

blockSize在Hadoop2中默认是128M，minSize默认值是1。返回的就是blockSize，128M。这是默认的。
如果调整参数，使得maxSize比blockSize小的话，那么切片就会变小。minSize比blockSize大，切片比blockSize大。

但是，不论怎么调参数，都不能让多个小文件“划入”一个 split。

TextInputFormat源码：

public class TextInputFormat extends FileInputFormat<LongWritable, Text> implements JobConfigurable {
    private CompressionCodecFactory compressionCodecs = null;

    public TextInputFormat() {
    }

    public void configure(JobConf conf) {
        this.compressionCodecs = new CompressionCodecFactory(conf);
    }

    protected boolean isSplitable(FileSystem fs, Path file) {
        CompressionCodec codec = this.compressionCodecs.getCodec(file);
        return null == codec ? true : codec instanceof SplittableCompressionCodec;
    }

    public RecordReader<LongWritable, Text> getRecordReader(InputSplit genericSplit, JobConf job, Reporter reporter) throws IOException {
        reporter.setStatus(genericSplit.toString());
        String delimiter = job.get("textinputformat.record.delimiter");
        byte[] recordDelimiterBytes = null;
        if (null != delimiter) {
            recordDelimiterBytes = delimiter.getBytes(Charsets.UTF_8);
        }

        return new LineRecordReader(job, (FileSplit)genericSplit, recordDelimiterBytes);
    }
}

从上面3个图可以看到，InputFormat是一个接口，FileInputFormat抽象类实现了InputFormat接口，然后TextInputFormat类继承了FileInputFormat。
TextInputFormat类中有一个getRecordReader方法，返回了一个LineRecordReader。
最终就是由LineRecordReader这个组件来一行行读取数据的。
读取之后将一行封装成一个<K, V>，K是这一行的起始偏移量，V是这一行的内容。读一行传给一次map，map就会源源不断的对数据进行处理。
按说处理结束之后就将数据写到磁盘当中，但是为了减少IO次数，先将要写入磁盘的数据写入内存缓冲区，然后由内存缓冲区分批次写到磁盘中。