MapReduce学习笔记

作者: 9c0ddf06559c | 来源:发表于2018-03-25 14:22 被阅读34次

mapreduce框架详解
Hadoop MapReduce 学习笔记
mapreduce学习笔记
MapReduce学习笔记
MapReduce学习笔记
学习笔记—MapReduce
MapReduce 6.824 学习笔记
[老实李]MapReduce学习笔记
Hadoop学习笔记（五）MapReduce
Hadoop学习笔记(5)-MapReduce

wordcount: 统计文件中每个单词出现的次数需求：1) 文件内容小：shell2）文件内容很大：TB GB ??? 如何解决大数据量的统计分析==> url TOPN <== wc 的延伸工作中很多场景的开发都是wc的基础上进行改造的借助于分布式计算框架分而治之(input)-> map ->-> combine ->-> reduce ->(output)

核心概念

Spilt：交由MapReduce作业来处理的数据块，是MapReduce中最小的计算单元

HDFS：blocksize 是HDFS中最小的存储单元 128M

默认情况下：他们两是一一对应的，当然我们也可以手工设置他们之间的关系

InputFormat:

将我们的输入数据进行分片（Spilt）：

InputSpilt[] getSpilts(JobConf job,int numSplits) throws IOException

TextInputFormat: 处理文本格式的数据

OutputFormat:

输出

MapReduce1.x的架构

1）JobTracker:JT

作业的管理者

将作业分解成一堆的任务：Task（MapTask和ReduceTask）

将任务分派给TaskTracjer运行

作业的监控、容错处理（task作业挂了，重启task的机制）

在一定的时间间隔内，JT没有收到TT的心跳信息，TT可能是挂了，TT上运行的任务会被指派到其他TT上去执行

2）TaskTracker:TT

任务的执行者干活的

在TT上执行我们的Task（MapTask和ReduceTask和ReduceTask）

会与JT进行交互：执行/启动/停止作业，发送心跳信息给JT

3）MapTask：

自己开发的map任务交由该Task处理

解析每条记录的数据，交给自己的map方法处理

将map的输出结果写到本地磁盘（有些作业只仅有mao没有reduces==》HDFS）

4）ReduceTask

将Map Task输出的数据进行读取

按照数据进行分组chua

使用IDEA+Maven开发mc：

1) 开发

2）编译： mvn clean package -DskipTests

3）上传到服务器 docker cp target/hadoop-train-1.0-SNAPSHOT.jar hadoop000:/home/hadoop/lib

4）运行

hadoop jar /home/hadoop/lib/hadoop-train-1.0-SNAPSHOT.jar com.gwf.hadoop.mapreduce.WordCountApp

hdfs://hadoop000:8020/hello.txt hdfs://hadoop000:8020/output/wc

相同的diam和脚本再次执行，会报错

security.UserGroupInformation:

PriviledgedActionException as:hadoop (auth:SIMPLE) cause:

org.apache.hadoop.mapred.FileAlreadyExistsException:

Output directory hdfs://hadoop000:8020/output/wc already exists

Exception in thread "main" org.apache.hadoop.mapred.FileAlreadyExistsException:

Output directory hdfs://hadoop000:8020/output/wc already exists

在MR中，输出文件是不能事先存在的

1）先手工通过shell的方式将输出文件夹先删除

hadoop fs -rm -r /output/wc

Combiner

hadoop jar /home/hadoop/lib/hadoop-train-1.0-SNAPSHOT.jar com.gwf.hadoop.mapreduce.CombinerApp

hdfs://hadoop000:8020/hello.txt hdfs://hadoop000:8020/output/wc

使用场景：

求和、次数 +

平均是 X

Paritioner

hadoop jar /home/hadoop/lib/hadoop-train-1.0-SNAPSHOT.jar com.gwf.hadoop.mapreduce.ParitionerApp

hdfs://hadoop000:8020/paritioner hdfs://hadoop000:8020/output/wc

网友评论

本文标题：MapReduce学习笔记

本文链接：https://www.haomeiwen.com/subject/fxwhcftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

MapReduce学习笔记

相关文章

mapreduce框架详解

Hadoop MapReduce 学习笔记