美文网首页我爱编程
7.Spark数据读取与保存

7.Spark数据读取与保存

作者: 泊牧 | 来源:发表于2018-03-27 09:48 被阅读1653次

    1. 常见数据源

    • 文件格式与文件系统
      对于存储在本地文件系统或分布式文件系统(比如NFS、HDFS、Amazon S3 等)中的数据,Spark 可以访问很多种不同的文件格式,包括文本文件、JSON、SequenceFile,以及protocol buffer。

    • Spark SQL中的结构化数据源
      Spark SQL 模块,它针对包括JSON 和Apache Hive 在内的结构化数据源,为我们提供了一套更加简洁高效的API。

    • 数据库与键值存储
      Spark 自带的库和一些第三方库,可以用来连接Cassandra、HBase、Elasticsearch 以及JDBC 源。

    2.文件格式

    Spark支持的一些文件格式
    2.1 文本文件
    • 将一个文本文件读取为RDD 时,输入的每一行都会成为RDD 的一个元素。

    • 将多个完整的文本文件一次性读取为一个pair RDD,其中键是文件名,值是文件内容。

    2.1.1 读取本地文件
    • 读取单个文件:textFile(fileName,minPartitions) ,如果要控制分区数的话,可以指定minPartitions。

    注意:textFile()方法也可以读取文件夹,将目录作为参数,会将目录中的数据都读入到RDD中。

    //在Scala中读取一个文件
    val input = sc.textFile("file:///home/holden/repos/spark/README.md")
    
    //在Java中读取一个文件
    JavaRDD<String> input = sc.textFile("file:///home/holden/repos/spark/README.md")
    
    • 读取一个目录中的文件:wholeTextFiles(),方法会返回一个pair RDD,其中键是输入文件的文件名。

    Spark 支持读取给定目录中的所有文件,以及在输入路径中使用通配字符(如part-*.txt)。

    //使用wholeTextFiles读取文件夹
    val input = sc.wholeTextFiles("/user/admin/mrwinter/chapter05/txt/")
    input.collect().foreach(println)
    
    使用wholeTextFiles读取文件夹输出结果
    使用textFile读取文件夹
    val input = sc.textFile("/user/admin/mrwinter/chapter05/txt/")
    input.collect().foreach(println)
    
    使用textFile读取文件夹输出结果
    //在Scala 中求每个文件的平均值
    val input = sc.wholeTextFiles("file://home/holden/salesFiles")
    val result = input.mapValues{y =>
      val nums = y.split(" ").map(x => x.toDouble)
      nums.sum / nums.size.toDouble
    }
    
    2.1.2 保存本地文件

    saveAsTextFile() 方法接收一个路径,并将RDD 中的内容都输入到路径对应的文件中。Spark 将传入的路径作为目录对待,会在那个目录下输出多个文件。

    //在Scala中将数据保存为文本文件
    inputRDD.saveAsTextFile(outputFile)
    
    2.2 JSON文件
    • 读取JSON 数据的最简单的方式是将数据作为文本文件读取,然后使用JSON 解析器来对RDD 中的值进行映射操作。
    • 也可以使用JSON 序列化库来将数据转为字符串,然后将其写出去。
    • 在Java 和Scala 中也可以使用一个自定义Hadoop 格式来操作JSON 数据。
    • 还可以使用Spark SQL 读取JSON 数据。

    测试json文件:

    {"name":"王阳","age":32}
    {"name":"李伟","age":22}
    {"name":"刘涵","age":41}
    {"name":"张丽","age":23}
    {"name":"杨梅","age":34}
    

    读取JSON文件
    使用Jackson来解析JSON文件

    import org.json4s.ShortTypeHints
    import org.json4s.jackson.JsonMethods._
    import org.json4s.jackson.Serialization
    
    case class Person(name:String,age:Int)
    
    implicit val formats = Serialization.formats(ShortTypeHints(List()))
    val input = sc.textFile("/user/admin/mrwinter/chapter05/person.json")
    val result = input.collect().map(x => parse(x).extract[Person])
    
    //保存JSON文件用saveASTextFile(outputFile)即可
    val save_json = sc.parallelize(result)
    save_json.saveAsTextFile("/user/admin/mrwinter/chapter05/save_person.json")
    
    运行结果
    2.3 逗号分隔值与制表符分隔值

    逗号分隔值(CSV)文件每行都有固定数目的字段,字段间用逗号隔开(在制表符分隔值文件,即TSV 文件中用制表符隔开)。

    2.3.1 读取CSV

    读取CSV/TSV 数据和读取JSON 数据相似,都需要先把文件当作普通文本文件来读取数据,再对数据进行处理。

    //CSV文件
    holden,panda
    hotholden,notpanda
    spark,bear
    
    //在Scala 中使用textFile() 读取CSV
    import java.io.StringReader
    import au.com.bytecode.opencsv.CSVReader
    
    val input = sc.textFile("/user/admin/mrwinter/chapter05/animal.csv")
    val result = input.map{ line =>
      val reader = new CSVReader(new StringReader(line))
      reader.readNext()
    }
    result.collect().foreach(x => println(x(0), x(1)))
    
    输出结果
    //在Java 中使用textFile() 读取CSV
    import au.com.bytecode.opencsv.CSVReader;
    import Java.io.StringReader;
    
    JavaRDD<String> csvFile1 = sc.textFile("/user/admin/mrwinter/chapter05/animal.csv");
    JavaPairRDD<String[]> csvData = csvFile1.map(line ->
      new CSVReader(new StringReader(line)).readNext();
    );
    

    如果在字段中嵌有换行符,就需要完整读入每个文件,然后解析各段。如果每个文件都很大,读取和解析的过程可能会很不幸地成为性能瓶颈。

    2.3.2 保存CSV文件
    saveAsTextFile(outputFile)
    

    相关文章

      网友评论

        本文标题:7.Spark数据读取与保存

        本文链接:https://www.haomeiwen.com/subject/kfyrcftx.html