了解了Map在Java中实现的方法之后,我们再来看一个MapReduce最后结束时的组件:Reducer。
原理
详细的原理介绍已经在系列的另一篇文章《5分钟掌握大数据:MapReduce》里面说过了,下面我们简单介绍一下:
Reduce的任务是对Map打好标签的数据执行具体的计算。
Reduce的任务根据具体业务的不同,可能只是简单的去重统计、计数求和;也有可能是复杂的算法运算。比如,如果你要统计一天的销售额,那么Reducer的任务就是要对Map按天分配过来的数据进行求和等。
代码详解
在进行具体的业务代码编写之前,让我们先看一下Java中对于Reducer的实现。
我们先来精简一下最简单的逻辑,来看看java中如何定义的Reducer
java中Reducer精简定义1 传入的四个参数:输入输出类型说明,详情见另一篇文章。
2 内部实现:
声明了类Context,传递了四个泛型,分别是输入的key类型、输入的value类型、输出的key类型、输出的value类型。
定义了四个方法:
setup:定义Reducer的启动工作,比如读入一些配置、进行一些变量的初始化等
reduce:定义实际的Reducer阶段功能,比如数据读入、处理、打标签、分发等
cleanup:定义Reducer阶段之后收尾工作,比如多路输出等。
run:实际执行程序的方法,先调用setup完成启动工作,然后调用reduce完成实际的Reducer阶段功能,在所有reduce工作都完成之后,调用cleanup完成收尾工作。
如何写Reducer
最小实现
MiniTest.java
java中reduce的最小实现接下来我们一行一行的来看:
java中reduce的最小实现的注释版了解了最小实现之后,我们来看一个最经典的例子:WordCountReducer.java
WordCount在java中的reduce实现补充:官方完整定义
Reducer官方定义
文集链接
文章链接
网友评论