3.MapReduce框架原理 1- inputformat

3.MapReduce框架原理 1- inputformat

作者: 压缩干粮 | 来源:发表于2021-10-10 18:15 被阅读0次

3.MapReduce框架原理 1- inputformat
大数据技术之MapReduce（三）
MapReduce框架原理
Hadoop InputFormat
MapReduce-深度解析
Android中热修复框架Robust原理解析+并将框架代码从&
前端TODO
Binder机制
Druid 加载 Kafka 流数据配置可以读取和处理的流中数据
Hadoop InputFormat介绍

image.png

1.工作流程

简述版：inputformat ->mapTask ->reduceTask ->outoutputformat
详细版：inputformat->map(sort ) -> reduce(copy sort reduce) -> outoutputformat

2.inputformat 数据输入

切块：数据在储存在HDFS上时，物理上先进行，按照blocksize进行切块
切片：数据在计算的时候，读取过程，把文件按照按照块的大小进行去划分，这样做是为了防止跨机器去读取数据(并不会在磁盘上将其切分成片进行存储。数据切片是MapReduce程序计算输入数据的单位)
切片对应的注意点： 1每一个切片都对应着一个MapTask,
2.默认切片的大小就是一个块的大小
3.默认情况下，切片只针对一个文件的本身，不考虑数据的整体

3.inputFormat结构体系(源码解析)

fileInputFormat inputformat的子实现，实现切片逻辑
textInputformat fileInputFormat的子实现类，实现读取数据的逻辑

--getSplits() 负责对文件的切片
--createRecordReader() 负责创建一个RecordReader来进行数据读取
FileInputFormat 负责切片

FileInputFormat .png

TextInputFormat负责读取

TextInputFormat.png
CombineTextInputFormat切片机制(专门用来处理小文件的)
框架默认的TextInputFormat切片机制是对任务按文件规划切片，不管文件多小，都会是一个单独的切片，都会交给一个MapTask，这样如果有大量小文件，就会产生大量的MapTask，处理效率极其低下。
image.png

4.Partitiner 分区

默认分区
根据当前key的hashcode值和 ReduceTask的数量取余得出分区编号
return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
自定义分区
ReduceTask的数量决定分区的数量。
以手机号流量统计案例为例（5个分区）
-- 设置的 ReduceTaskNum > 5 -->不会报错，也不影响分区操作，但是会多出来一个空分区文件。
-- < ReduceTaskNum < 5 会报错，不符合逻辑
-- ReduceTaskNum = 1，走默认规则，就不会走定义的规则。

image.png

相关文章

3.MapReduce框架原理 1- inputformat
1.工作流程简述版：inputformat ->mapTask ->reduceTask ->outoutput...
大数据技术之MapReduce（三）
MapReduce 框架原理 3.1 InputFormat 数据输入 3.1.1 切片与与 MapTask 并...
MapReduce框架原理
最全的MapReduce框架原理，方便以后复习。知识点来自尚硅谷的课程学习。课程链接一、InputFormat数...
Hadoop InputFormat
Input Splits and Records 每个map处理一个输入分片split，输入分片是一个数据块每个...
MapReduce-深度解析
Map-side InputFormat Class : getSplits: the set of input ...
Android中热修复框架Robust原理解析+并将框架代码从&
一、回顾框架原理本篇继续来看热修复框架Robust原理，在之前的一篇文章中已经详细讲解了：Robust框架原理，因...
前端TODO
Vue.js 等框架原理了解 webpack 原理了解 browserify 插件开发 Vue.js 等框架原理学习
Binder机制
进程间通信方式 Android Binder框架图 Android系统框架 IPC 进程通信原理 Binder原理...
Druid 加载 Kafka 流数据配置可以读取和处理的流中数据
Kafka 索引服务（indexing service）支持inputFormat[https://druid.o...
Hadoop InputFormat介绍
Hadoop InputFormat介绍 1 概述我们在编写MapReduce程序的时候，在设置输入格式的时候，...

网友评论

本文标题：3.MapReduce框架原理 1- inputformat

本文链接：https://www.haomeiwen.com/subject/jabholtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|3.MapReduce框架原理 1- inputformat|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！