美文网首页
Spark读写GBK文件

Spark读写GBK文件

作者: 这个该叫什么呢 | 来源:发表于2018-01-17 15:29 被阅读0次
    1. Spark 读取GBK文件
    sc.hadoopFile(path, classOf[TextInputFormat], classOf[LongWritable], classOf[Text], 1)
          .map(p => new String(p._2.getBytes, 0, p._2.getLength, "GBK"))
    
    1. Spark写GBK文件
    val result: RDD[(NullWritable, Text)] = totalData.map {
            item =>
              val line = s"${item.query}"
              (NullWritable.get(), new Text(line.getBytes("GBK")))
          }
         //设置输出格式,以GBK存储
          result.saveAsNewAPIHadoopFile(path, classOf[NullWritable],
            classOf[Text], classOf[TextOutputFormat[NullWritable, Text]])
    
    

    参考:

    RDD行动Action操作(6)–saveAsHadoopFile

    Spark多文件输出(MultipleOutputFormat)

    Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)

    Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(二)

    Hadoop 中文编码相关问题 -- mapreduce程序处理GBK编码数据并输出GBK编码数据

    相关文章

      网友评论

          本文标题:Spark读写GBK文件

          本文链接:https://www.haomeiwen.com/subject/pqruoxtx.html