美文网首页
2020-12-14

2020-12-14

作者: FrankXu0808 | 来源:发表于2020-12-14 22:01 被阅读0次

1。mapper阶段的输入和输出都是kv对
2。mapreduce的序列化采用的是hadoop自己的序列化机制:
特点 紧凑:高效实用存储空间
快速:读写数据额外开销小
可扩展:随着通信协议的升级而可升级
互操作:支持多语言交互
3.反序列化和序列化的顺序是一致的,因为采用的是队列形式的结构来传输。
4。MapTask并行度决定机制
数据块:Block是HDFS物理上把数据分成一块一块。
数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。
注意,这里的切片和hdfs的分块block是不一样的概念。默认情况下,切片大小和block大小一样。

image.png

6.CombineTextInputFormat 对于小文件过多的场景,他可以将多个小文件从逻辑上规划成一个切片文件。

7. image.png

8.FileInputFormat 常见的接口实现类包括 TextInputFormat,KeyValueTextInputFormat,NLineInputFormat,CombineTextInputFormat和自定义InputFormat等。
9.自定义InputFormat的案例!!!!
10.数据切片和MapTask并行度决定机制


数据切片
11. image.png
12. image.png

相关文章

  • 周一 2020-12-14 22:58 - 06:16 雪 10

    2020-12-14 总结和论文更配哦周一 2020-12-14 22:58 - 06:16 雪 10h59m 一...

  • 青蛙花圆廿汉100sc3008

    原创 李大叔 清江风情 2020-12-14 图谱编号:ESB_TP_100_sc3008 直径:39.0~40....

  • 2020-12-14

    【318号】2020-12-14点赞列表 http://www.jianshu.com/p/285e3805e1b...

  • 2020-12-14 自我整合

    2020-12-14日精进 第209天/1825】表现:8分 一、体验(事实,情绪,感受) 可控基本盘。把事放大...

  • App 生命周期测试

    基于iOS14.1测试 手机屏幕底部向上轻扫App至桌面,点击App图标返回2020-12-14 12:23:15...

  • 2020-12-14

    中原焦点团队祝澜 1083天 2020-12-14 今天,温度偏低,真的感觉到冷啦! 来到学校,看到操场上雪...

  • 2020-12-16

    沿海电厂库存急剧下降 煤价大幅上涨 来源:鄂尔多斯煤炭网 • 2020-12-14 13:44:29 在11月初的...

  • 《金文成〈正蒙〉日记160。2020-12-14》

    《金文成〈正蒙〉日记160。2020-12-14》 今天是庚子戊子辛卯,十月三十,2020年12月14日星期一。 ...

  • 鉴峰丨话说早起

    [连续签到第1070天] 2020-12-14 周一 问:"有保证成功的万能灵药吗?″ 答:“没有任何一种生活方式...

  • 令人心动的offer

    2020-12-14 关于职场,我看过很多真人秀的节目从2004年左右的吧,那个创智赢家,因为学习人力资源的男友。...

网友评论

      本文标题:2020-12-14

      本文链接:https://www.haomeiwen.com/subject/ppacgktx.html