解读MapReduce程序实例

作者: 大数据首席数据师 | 来源:发表于2018-11-29 14:41 被阅读11次

解读MapReduce程序实例
解读MapReduce程序实例
Hadoop MapReduce 程序实例（Python）
3. Hadoop：MapReduce 编程及 shuffle
分布式之MapReduce——解读《MapReduce》
MapReduce工作机制——Word Count实例（一）
Hadoop MapReduce初探和eclipse hadoo
MapReduce计算实例
大数据技术之MapReduce（一）
好程序员大数据培训分享Mapreduce中job的提交流程

Mapreduce 是一个分布式运算程序的编程框架，核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个 hadoop 集群上。MapReduce采用“分而治之”策略，一个存储在分布式文件系统中的大规模数据集，会被切分成许多独立的分片（split），这些分片可以被多个Map任务并行处理。

Hadoop 的四大组件：

（1）HDFS：分布式存储系统；

（2）MapReduce：分布式计算系统；

（3）YARN： hadoop 的资源调度系统；

（4）Common：以上三大组件的底层支撑组件，主要提供基础工具包和 RPC 框架等；

在 MapReduce 组件里，官方给我们提供了一些样例程序，其中非常有名的就是 wordcount 和 pi 程序，这些程序代码都在 hadoop-example.jar 包里，jar包的安装目录在Hadoop下，为：

/share/hadoop/mapreduce

下面我们来逐一解读这两个样例程序。

测试前，先关闭防火墙，启动Zookeeper、Hadoop集群，依次顺序为：

./start-dfs.sh./start-yarn.sh

成功启动后，查看进程是否完整。这些可参考之前博客中关于集群的搭建。

一、pi样例程序

（1）执行命令，带上参数

[hadoop@slave01 mapreduce]$ hadoop jar hadoop-mapreduce-examples-2.7.6.jar pi55Number of Maps =5Samples per Map =5Wrote inputforMap#0Wrote inputforMap#1Wrote inputforMap#2Wrote inputforMap#3Wrote inputforMap#4Starting Job......省略一部分......18/06/2716:22:56INFO mapreduce.Job:map0% reduce0%18/06/2716:28:12INFO mapreduce.Job:map73% reduce0%18/06/2716:28:13INFO mapreduce.Job:map100% reduce0%18/06/2716:29:26INFO mapreduce.Job:map100% reduce100%18/06/2716:29:29INFO mapreduce.Job: Job job_1530087649012_0001 completed successfully18/06/2716:29:30INFO mapreduce.Job: Counters:49File System CountersFILE: Number of bytesread=116FILE: Number of bytes written=738477FILE: Number ofreadoperations=0FILE: Number of largereadoperations=0FILE: Number ofwriteoperations=0HDFS: Number of bytesread=1320HDFS: Number of bytes written=215HDFS: Number ofreadoperations=23HDFS: Number of largereadoperations=0HDFS: Number ofwriteoperations=3Job Counters Launchedmaptasks=5Launched reduce tasks=1Data-localmaptasks=5Totaltimespent by all maps in occupied slots (ms)=1625795Totaltimespent by all reduces in occupied slots (ms)=48952Totaltimespent by allmaptasks (ms)=1625795Totaltimespent by all reduce tasks (ms)=48952Total vcore-milliseconds taken by allmaptasks=1625795Total vcore-milliseconds taken by all reduce tasks=48952Total megabyte-milliseconds taken by allmaptasks=1664814080Total megabyte-milliseconds taken by all reduce tasks=50126848Map-Reduce FrameworkMap input records=5Map output records=10Map output bytes=90Map output materialized bytes=140Inputsplitbytes=730Combine input records=0Combine output records=0Reduce input groups=2Reduce shuffle bytes=140Reduce input records=10Reduce output records=0Spilled Records=20Shuffled Maps =5Failed Shuffles=0Merged Map outputs=5GCtimeelapsed (ms)=107561CPUtimespent (ms)=32240Physical memory (bytes) snapshot=500453376Virtual memory (bytes) snapshot=12460331008Total committed heap usage (bytes)=631316480Shuffle ErrorsBAD_ID=0CONNECTION=0IO_ERROR=0WRONG_LENGTH=0WRONG_MAP=0WRONG_REDUCE=0File Input Format Counters Bytes Read=590File Output Format Counters Bytes Written=97Job Finished in452.843secondsEstimated value of Pi is3.68000000000000000000

执行程序，参数含义：

第1个参数5指的是要运行5次map任务；

第2个参数5指的是每个map任务，要投掷多少次；

2个参数的乘积就是总的投掷次数（pi代码就是以投掷来计算值）。

通过上面我们获得了Pi的值：3.680000，当然也可以改变参数来验证得出的结果和参数的关系，比如我的参数换成10和10，则得出的结果为：3.20000。由此可见：参数越大，结果越是精确。

（2）查看运行进程

在执行过程中，它的时间不定，所以我们可以通过访问界面，查看具体的运行进程，访问：

slave01:8088

界面显示如下：

从上面我们可以看出：当Progress进程结束，即代表运算过程结束，也可以点击查看具体的内容，这里不做演示了。

二、wordcount样例程序

（1）准备数据，上传HDFS

简单的说就是单词统计，这里我们新建一个txt文件，输入一些单词，方便统计：

[hadoop@slave01 mapreduce]$ touch wordcount.txt

[hadoop@slave01 mapreduce]$ vim wordcount.txt

输入以下单词，并保存：

hello word !you canhelpme ?yes , I canHowdoyoudo?

上传到HDFS，先在hdfs上创建文件夹，在将txt文件放到该文件夹下，下面是一种创建方式，或者是hadoop fs -mkdir 的方式，二者择其一，注意路径：

[hadoop@slave01 bin]$ hdfs dfs -mkdir -p /wordcount

[hadoop@slave01 bin]$ hdfs dfs -put ../share/hadoop/mapreduce/wordcount.txt /wordcount

[hadoop@slave01 bin]$

我们可以通过访问 slave01:50070，查看HDFS文件系统：

成功上传。

（2）运行程序

执行下面的命令，注意路径：

[hadoop@slave01 bin]$ yarn jar ../share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount /wordcount /word_output18/06/2717:34:24INFO client.RMProxy:Connecting to ResourceManager at slave01/127.0.0.1:803218/06/2717:34:30INFO input.FileInputFormat:Total input paths to process :118/06/2717:34:30INFO mapreduce.JobSubmitter:number ofsplits:118/06/2717:34:31INFO mapreduce.JobSubmitter:Submitting tokensforjob:job_1530087649012_000318/06/2717:34:32INFO impl.YarnClientImpl:Submitted application application_1530087649012_000318/06/2717:34:33INFO mapreduce.Job:The url to track thejob:http://slave01:8088/proxy/application_1530087649012_0003/18/06/2717:34:33INFO mapreduce.Job:Runningjob:job_1530087649012_000318/06/2717:34:52INFO mapreduce.Job:Job job_1530087649012_0003 runninginuber mode :false18/06/2717:34:52INFO mapreduce.Job:map0% reduce0%18/06/2717:35:02INFO mapreduce.Job:map100% reduce0%18/06/2717:35:31INFO mapreduce.Job:map100% reduce100%18/06/2717:35:32INFO mapreduce.Job:Job job_1530087649012_0003 completed successfully......省略部分......Shuffle ErrorsBAD_ID=0CONNECTION=0IO_ERROR=0WRONG_LENGTH=0WRONG_MAP=0WRONG_REDUCE=0File Input Format Counters Bytes Read=59File Output Format Counters Bytes Written=72

命令参数的含义：

第一个指的是jar包路径，第二个指的是要执行的样例程序名称wordcount，第三个指的是文件所在的HDFS路径，第四个指的是要输出的文件目录（不要是已经存在的）。

上面是输出结果，同样的我们可以通过访问 slave01:8088 查看进程。

执行结束后，在HDFS文件系统上，可以看到输出的目录已经创建好了，且里面存在了输出的文件：