美文网首页
Spark本地文件读写

Spark本地文件读写

作者: 学习之术 | 来源:发表于2018-10-03 21:04 被阅读143次

当数据量大时,使用分布式的存储系统也会更可靠,所以使用 Spark 时所用到的源数据大多数会从 HDFS 或 Hbase 得到。

但对于数据量较小的文件,比如在商品推荐系统中需要额外照顾某批商品,或者是算法中生成的一些关于类目的信息,又或者是粗排算法商品的排序值,我们完全可以把数据存在 driver 服务器中。

除了读写更高效外,保存在本地的好处是可以更方便的查看和修改,需要时下载文件也会比下载 HDFS 文件方便。

由于仅在 driver 服务器中进行读写操作,所以用 scala 就能完成任务,读写的两段函数如下。

import java.io.{File, PrintWriter}
import scala.io.Source

object LocalFileOperator {
  /**
    * 保存数据至本地服务器
    * @param context
    * @param fileName
    */
  def writeFile(context: List[String],fileName: String): Unit ={
    val writer = new PrintWriter(new File(fileName))
    for (x <- context){
      writer.write(x)
      writer.write("\n")
    }
    writer.close()
  }

  /**
    * 从本地读取文件
    * @param fileName
    * @return
    */
  def readLocalFile(fileName: String): List[String] ={
    val src = Source.fromFile(fileName).getLines()
    (for (i <- src) yield  i.trim).toList
  }
}

相关文章

  • Spark本地文件读写

    当数据量大时,使用分布式的存储系统也会更可靠,所以使用 Spark 时所用到的源数据大多数会从 HDFS 或 Hb...

  • Apache Spark之文件读写

    除了对本地文件系统进行读写以外,Spark还支持很多常见的文件格式(文本文件、JSON)和文件系统(HDFS)和数...

  • Spark hello word(加载本地文件和加载hdfs文件

    本节内容主要完成:使用sparkshell记载本地文件和hdfs文件 spark处理的文件可能存在于本地文件系统中...

  • Spark读写GBK文件

    Spark 读取GBK文件 Spark写GBK文件 参考: RDD行动Action操作(6)–saveAsHado...

  • JavaSE第20篇:Java之IO流上篇

    核心概述:如何获取和遍历本地文件及目录信息?如何使用读写本地文件?本篇我们将学习File类来获取本地文件信息,学习...

  • Flutter 文件读写

    在某些时候可能需要下载或保存文件到手机本地,这时候使用文件读写接口可以实现。 在 Flutter 里实现文件读写,...

  • 读写取本地文件

    写入本地文件

  • Python | spark常用函数

    远程传文件 从本地复制到远程 从远程复制到本地 读文件 spark.read.csv()可以读取csv、tsv、s...

  • windows上spark shell读取本地文件

    1、windows上spark shell读取本地文件时,需要在文件地址前加“file:///”2、文本文件的后缀...

  • spark 数据文件读写

    本地文件系统的数据读写val textFile=sc.textFile("file:/// path") 分布式文...

网友评论

      本文标题:Spark本地文件读写

      本文链接:https://www.haomeiwen.com/subject/jfdtaftx.html