Hadoop-MapReduce运行机制

作者: Eqo | 来源:发表于2022-05-01 23:30 被阅读0次

Hadoop-MapReduce运行机制
如何在mapreduce中导入自定义模块？【python】
Hadoop5-Mapreduce shuffle及优化
大数据学习-spark
Hadoop-MapReduce
Hadoop-Mapreduce
Hadoop-MapReduce示例
3 spark streaming运行机制与架构
最全js运行机制
webpackV4 你需要知道的基础知识

MapRduce是hadoop中的一个分布式计算工具,分为map阶段和reduce阶段其采用了一个分而治之的思想
以下一个例子作为演示,假设有一个涉及300M的文件(1.txt200m 2.txt 100m)
进行计算,求每个单词所占的个数

image.png

mapreduce_流程.png

Map阶段

image.png

1.首先进行逻辑切片,切片个数就是maptask启动的个数
2.maptask通过textinputformat按行读取分区当中的数据,结果是一个键值对<k1,v1> (k1是偏移量地址,value是具体的数据)
3,textinputformat将读取的键值对结果传个业务代码进行处理,处理的结果是一个新的键值对<k2,v2>
4,处理结果经过partition分区(默认只要一个)传送给缓冲区
5,缓冲区(默认大小100M)内的数据达到百分之八十,会产生一次数据溢出.溢出的数据经过排序存储到磁盘当中的一个临时文件
6,当区中数据处理完成后,会把所有的临时文件merge合并到一个最终结果文件

reduce阶段

image.png
1,reducetask拉取(copy)maptask最终的结果集
2,合并:把拉取的数据Merge合并成为一个文件
3,排序:按照对应key值进行排序
4,分组:key一样的分为一组
5,每个组都调用业务代码处理一次,处理完的数据是一个新的键值对
6,处理结果通过TextOutputformat 存储到磁盘指定位置

思考:maptask 个数与文件大小,文件个数,逻辑分区大小有关,分区大小默认为hdfs分块大小,可以改

shuffle过程

image.png

shuffle:指的是map产生输出到reduce取得数据输入之前的过程

map阶段:

collect收集:把数据写入缓冲区阶段写入的是partition分区信息和key/value
partition分区: 跟reducetask的个数有关,reduce task又跟业务需要有关可以自定义
spill 溢出:当缓存区的数据达到80%会溢出,溢出的数据从内存中写入磁盘,如果配置了combiner规约会按照分区和规约进行排序
merge 合并:把磁盘当中的这些临时文件合并成一个总的结果文件