mapreduce初体验--wordcount

作者: pamperxg | 来源:发表于2017-08-16 21:42 被阅读0次

mapreduce初体验--wordcount
Hadoopshell命令操作
3. Hadoop：MapReduce 编程及 shuffle
四、分布式计算框架MapReduce
Hadoop之MapReduce
Hadoop学习2
MapReduce详解
《十小时入门大数据》学习笔记之Hadoop核心组件MapRedu
第一个MapReduce程序——WordCount
Hadoop学习-第二天（MapReduce原理及WordCou

mapreduce是hadoop的核心部分之一。是分布式运算程序的编程框架。相对于hdfs，mapreduce就是一个客户端。
hdfs：
namenode,管理整个系统的元数据
datanode,管理用户的文件数据块（不负责切片，切片客户端完成），
每一个文件块有多个副本，存放于不同的datanode上。
定期向namenode汇报自身保存的文件block信息，namenode会负责保持文件副本的数量。
secondarydatanode，做checkpoint。
hdfs不支持文件更改内容，只能追加。

分布式运算程序一般分为两个阶段。第一阶段map的并发实例maptask完全并行。第二阶段reduce的reducetask也是互不相干。但是他们的数据依赖于上一阶段maptask的输出。mapreduce编程模型只能包含一个map和一个reduce。如果业务逻辑复杂，只能多个mapreduce程序串行运行。
maptask和reducetask由mr application master协调。

Wordcount例子

package hadoop.wcdemo;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
public class WordcountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{
    @Override
    protected void map(LongWritable key, Text value,Context context)throws IOException, InterruptedException {
        String line = value.toString();
        String[] words = line.split(" ");
        for(String word:words){
            context.write(new Text(word), new IntWritable(1));
        }
    }
}


package hadoop.wcdemo;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
public class WordcountReducer extends Reducer<Text, IntWritable, Text, IntWritable>{
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values,Context context)
            throws IOException, InterruptedException {
        int count=0;
        for(IntWritable value:values){
            count+=value.get();
        }
        context.write(key, new IntWritable(count));
    }
}


package hadoop.wcdemo;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class WordcountDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Configuration conf = new Configuration();
        /*conf.set("mapreduce.framework.name", "yarn");
        conf.set("yarn.resourcemanager.hostname", "mini1");*/
        Job job = Job.getInstance(conf);
        
        job.setJarByClass(WordcountDriver.class);
        job.setMapperClass(WordcountMapper.class);
        job.setReducerClass(WordcountReducer.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        
        /*job.submit();*/
        boolean res = job.waitForCompletion(true);
        System.exit(res?0:1);
    }
}

在集群上运行：

先把编好的程序打成jar包上传到集群任一机器
start-dfs.sh
start-yarn.sh

hadoop fs -mkdir -p /wordcount/input
hadoop fs -put xxx /wordcount/input

hadoop jar wordcount.jar hadoop.wcdemo.WordcountDriver /wordcount/input /wordcount/output

程序分为3个部分，Mapper，Reducer（继承父类），Driver（提交运行mr程序的客户端）。Mapper输入kv对，输出也是kv对的形式。Mapper的业务逻辑写在map方法中。map方法（maptask进程）对每一个<k,v>调用一次（k是那一行起始偏移量v是一行的内容，对应一行）。Reducer输入类型对应Mapper的输出数据类型。业务逻辑写在reduce方法中。reducetask进程对每一组相同k的<k,v>组调用一次reduce方法。Driver提交的是一个描述了各种必要信息的job对象。
submit后先查看hdfs获取待处理文件的信息，根据参数配置形成任务分配的规划（文件的分片）（job.split,job.xml,wc.jar），然后把这些对象提交给yarn，找一台机器启动mr appmaster。mr appmaster根据文件的分片启动maptask进程（优先在存文件的机器上起相应的maptask）。maptask进程其实是一个管理者，调用很多组件来完成任务。一行一行读文件是其实是调用inputformat组件里的方法。读到的kv结果后再调用我们定义的wordcountmapper（map(k,v),context.write(k,v)）。再交给outputcollector组件收集文件排序分区（按照给那个reducer分区）。所有maptask执行完后，mr appmaster再启动reducetask。reducetask从刚才maptask写好的分区文件中取出属于自己分区的数据。每一组kv对调用wordcountreducer（reduce(k,itvalues),context.write(k,v)）。最后调用outputformat组件写出数据（不需要收集缓存直接写出）。往hdfs文件（part-r00001,part-r00002……）不断追加。

wordcount运行全流程