美文网首页
Spark读写GBK文件

Spark读写GBK文件

作者: 这个该叫什么呢 | 来源:发表于2018-01-17 15:29 被阅读0次
  1. Spark 读取GBK文件
sc.hadoopFile(path, classOf[TextInputFormat], classOf[LongWritable], classOf[Text], 1)
      .map(p => new String(p._2.getBytes, 0, p._2.getLength, "GBK"))
  1. Spark写GBK文件
val result: RDD[(NullWritable, Text)] = totalData.map {
        item =>
          val line = s"${item.query}"
          (NullWritable.get(), new Text(line.getBytes("GBK")))
      }
     //设置输出格式,以GBK存储
      result.saveAsNewAPIHadoopFile(path, classOf[NullWritable],
        classOf[Text], classOf[TextOutputFormat[NullWritable, Text]])

参考:

RDD行动Action操作(6)–saveAsHadoopFile

Spark多文件输出(MultipleOutputFormat)

Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)

Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(二)

Hadoop 中文编码相关问题 -- mapreduce程序处理GBK编码数据并输出GBK编码数据

相关文章

  • Spark读写GBK文件

    Spark 读取GBK文件 Spark写GBK文件 参考: RDD行动Action操作(6)–saveAsHado...

  • spark读取GBK文件的方法

    spark读取GBK文件乱码 spark的textFile方法默认写死了读UTF-8格式的文件,读其他格式的文件则...

  • 常用文件处理方法

    GBK格式内容转码 获取文件路径或文件名 hadoop mr 中使用如下方式 spark 中 获取文件名中的ip信...

  • vim 读写 gbk 编码的文件

    处理 vim 打开 gbk 文件乱码 vim ~/.vimrc 配置如下内容 vim 会依次尝试 fileenco...

  • Spark本地文件读写

    当数据量大时,使用分布式的存储系统也会更可靠,所以使用 Spark 时所用到的源数据大多数会从 HDFS 或 Hb...

  • python高级编程技巧(7)

    一. 如何读写文本文件 实际案例: 某文本文件编码格式已知(如UTF-8,GBK,BIG5),在Python2.x...

  • python基础IO--读写文件编码问题

    window环境下,python读写磁盘目录下的文件。 内容是中文: 代码部分 出现异常 中文默认的编码是gbk格...

  • Apache Spark之文件读写

    除了对本地文件系统进行读写以外,Spark还支持很多常见的文件格式(文本文件、JSON)和文件系统(HDFS)和数...

  • spark 数据文件读写

    本地文件系统的数据读写val textFile=sc.textFile("file:/// path") 分布式文...

  • Spark读写压缩文件

    一、 压缩文件读取 spark 自动根据文件后缀名判断压缩格式,不用特别指定 二、写文件时压缩 spark会加载H...

网友评论

      本文标题:Spark读写GBK文件

      本文链接:https://www.haomeiwen.com/subject/pqruoxtx.html