1。mapper阶段的输入和输出都是kv对
2。mapreduce的序列化采用的是hadoop自己的序列化机制:
特点 紧凑:高效实用存储空间
快速:读写数据额外开销小
可扩展:随着通信协议的升级而可升级
互操作:支持多语言交互
3.反序列化和序列化的顺序是一致的,因为采用的是队列形式的结构来传输。
4。MapTask并行度决定机制
数据块:Block是HDFS物理上把数据分成一块一块。
数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。
注意,这里的切片和hdfs的分块block是不一样的概念。默认情况下,切片大小和block大小一样。

6.CombineTextInputFormat 对于小文件过多的场景,他可以将多个小文件从逻辑上规划成一个切片文件。

8.FileInputFormat 常见的接口实现类包括 TextInputFormat,KeyValueTextInputFormat,NLineInputFormat,CombineTextInputFormat和自定义InputFormat等。
9.自定义InputFormat的案例!!!!
10.数据切片和MapTask并行度决定机制

11.

12.

网友评论