美文网首页我爱编程
Hadoop -数据输入输出格式和自定义数据输入输出格式

Hadoop -数据输入输出格式和自定义数据输入输出格式

作者: 机器不能学习 | 来源:发表于2018-05-23 22:25 被阅读0次

    数据输入输出格式和自定义数据输入输出格式


    数据输入格式(InputFormat) 用于描述MapReduce作业的数据输入规范。MapReduce框架依靠数据输入格式完成输入规范检查(比如输入文件目录的检查)、对数据文件进行输入分块(也叫分片,InputSplit),以及提供从输入分块(分片)中将数据记录逐一读出,并转化为Map过程的输入键值对等功能

    Hadoop提供了丰富的内置数据输入格式。最常用的数据输入格式包括:TextInputFormat和KeyValueInputFormat

    TextInputFormat是系统默认的数据输入格式,可以将文本文件分块并逐行读入以便Map节点进行处理。读入一行时,所产生的主键Key就是当前行在整个文本文件中的字节偏移位置,而value就是该行的内容,它是系统默认的输入格式,当用户程序不设置任何数据输入格式时,系统自动使用这个数据输入格式。

    比如如下文件内容

    hello tanggao

    hello hadoop

    第一行的偏移量为0

    第二行偏移量为13

    KeyValueTextInputFormat是另一个常用的数据输入格式,可将一个按照格式逐行存放的文本文件逐行读出,并自动解析生成相应的key和value

    比如

    姓名    汤高

    年龄    20

    则解析出来的

    第一行键Key为姓名  值value为汤高

    第二行键key为年龄 值value为20

    注意和TextInputFormat不同,TextInputFormat是偏移量做键,整行内容做值


    对于一个数据输入格式,都需要一个对应的RecordReader。RecordReader。主要用于将一个文件中的数据记录分拆成具体的键值对,传送给Map过程作为键值对输入参数。每一个数据输入格式都有一个默认的RecordReader。TextInputFormat的默认RecordReader是LineRecordReader,而KeyValueTextInputFormat的默认RecordReader是KeyValueLineRecordReader

    当然肯定还有很多数据输入格式和对应的默认RecordReader 这里就不介绍了,有需要的可以去官网看看


    数据输出格式(OutputFormat)用于描述MapReduce作业的数据输出规范。MapReduce框架依靠数据输出格式完成输出规范检查(蔽日检查输出目录是否存在),以及提供作业结果数据输出等功能

    Hadoop提供了丰富的内置数据输出格式。最常用的数据输出格式是TextOutputFormat,也是系统默认的数据输出格式,可以将计算结果以 key+\t+value的形式逐行输出到文本文件中。

    与数据输入格式中的RecordReader类似,数据输出格式也提供一个对应的RecordWriter,以便系统明确输出结果写入到文件中的具体格式。

    TextOutputFormat的默认RecordWriter是LineRecordWriter,其实际操作是将结果数据以key+\t+value的形式输出到文本文件中。

    当然同样肯定还有很多数据输出格式和对应的默认RecordWriter

    对于自定义数据输入格式 可以参考已有的数据输入格式,继承自它即可,只要重写GetRecordReader方法得到一个自己写的RecordReader即可


    自定义数据输入输出:

    输入:写自己的inputFormat:继承InputFormat或者其子类,重写GetRecordReader获得默认的RecordReader即可。如果对默认的不满意,可以写自己的RecordReader:继承RecordReader即可

    输出:和上面类似。只是继承的是InputFormat,也是重写getRecordWriter

    相关文章

      网友评论

        本文标题:Hadoop -数据输入输出格式和自定义数据输入输出格式

        本文链接:https://www.haomeiwen.com/subject/hebdjftx.html