从源码角度分析MapReduce运作_三.Reduce阶段

作者: scott_alpha | 来源:发表于2020-02-15 22:47 被阅读0次

从源码角度分析MapReduce运作_三.Reduce阶段
从源码角度分析MapReduce运作_一.准备阶段
从源码角度分析MapReduce运作_二.Map阶段
大数据综合笔记
MapReduce 任务执行过程
01 - 关于 MapReduce
简单搞定Shuffle机制运行原理
MapReduce工作流程
MapReduce执行过程及shuffle详解
shuffle阶段

一.目录

本系列文章对Hadoop知识进行复盘。
分为四个阶段，Copy阶段，Merge阶段，Sort阶段，Reduce阶段。
如下为ReduceTask类的runNewReducer方法

private <INKEY,INVALUE,OUTKEY,OUTVALUE>
  void runNewReducer(JobConf job,
                     final TaskUmbilicalProtocol umbilical,
                     final TaskReporter reporter,
                     RawKeyValueIterator rIter,
                     RawComparator<INKEY> comparator,
                     Class<INKEY> keyClass,
                     Class<INVALUE> valueClass
                     ) throws IOException,InterruptedException, 
                              ClassNotFoundException {
    // wrap value iterator to report progress.
    final RawKeyValueIterator rawIter = rIter;
    rIter = new RawKeyValueIterator() {
      public void close() throws IOException {
        rawIter.close();
      }
      public DataInputBuffer getKey() throws IOException {
        return rawIter.getKey();
      }
      public Progress getProgress() {
        return rawIter.getProgress();
      }
      public DataInputBuffer getValue() throws IOException {
        return rawIter.getValue();
      }
      public boolean next() throws IOException {
        boolean ret = rawIter.next();
        reporter.setProgress(rawIter.getProgress().getProgress());
        return ret;
      }
    };
    // make a task context so we can get the classes
    org.apache.hadoop.mapreduce.TaskAttemptContext taskContext =
      new org.apache.hadoop.mapreduce.task.TaskAttemptContextImpl(job,
          getTaskID(), reporter);
    // make a reducer
    org.apache.hadoop.mapreduce.Reducer<INKEY,INVALUE,OUTKEY,OUTVALUE> reducer =
      (org.apache.hadoop.mapreduce.Reducer<INKEY,INVALUE,OUTKEY,OUTVALUE>)
        ReflectionUtils.newInstance(taskContext.getReducerClass(), job);
    org.apache.hadoop.mapreduce.RecordWriter<OUTKEY,OUTVALUE> trackedRW = 
      new NewTrackingRecordWriter<OUTKEY, OUTVALUE>(this, taskContext);
    job.setBoolean("mapred.skip.on", isSkipping());
    job.setBoolean(JobContext.SKIP_RECORDS, isSkipping());
    org.apache.hadoop.mapreduce.Reducer.Context 
         reducerContext = createReduceContext(reducer, job, getTaskID(),
                                               rIter, reduceInputKeyCounter, 
                                               reduceInputValueCounter, 
                                               trackedRW,
                                               committer,
                                               reporter, comparator, keyClass,
                                               valueClass);
    try {
      reducer.run(reducerContext);
    } finally {
      trackedRW.close(reducerContext);
    }
  }

二.Copy阶段

ReduceTask从各个MapTask上远程拷贝一片数据，并针对某一片数据，如果其大小超过一定阈值，则写到磁盘上，否则直接放到内存中。

三.Merge阶段

在远程拷贝数据的同时，ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并，以防止内存使用过多或磁盘上文件过多。

四.Sort阶段

按照MapReduce语义，用户编写reduce()函数输入数据是按key进行聚集的一组数据。为了将key相同的数据聚在一起，Hadoop采用了基于排序的策略。由于各个MapTask已经实现对自己的处理结果进行了局部排序，因此，ReduceTask只需对所有数据进行一次归并排序即可。

五.Reduce阶段

reduce()函数将计算结果写到HDFS上。

网友评论

本文标题：从源码角度分析MapReduce运作_三.Reduce阶段

本文链接：https://www.haomeiwen.com/subject/vmjufhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

从源码角度分析MapReduce运作_三.Reduce阶段

一.目录

二.Copy阶段

三.Merge阶段

四.Sort阶段

五.Reduce阶段

相关文章

从源码角度分析MapReduce运作_三.Reduce阶段

从源码角度分析MapReduce运作_一.准备阶段

从源码角度分析MapReduce运作_二.Map阶段

大数据综合笔记

MapReduce 任务执行过程

01 - 关于 MapReduce

简单搞定Shuffle机制运行原理

MapReduce工作流程

MapReduce执行过程及shuffle详解

shuffle阶段

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读