美文网首页
离线计算组件篇-Spark-文件读写

离线计算组件篇-Spark-文件读写

作者: CoderInsight | 来源:发表于2022-12-06 09:09 被阅读0次

    文件数据读写总结

    • 对于RDD而言,每一次转换操作都会产生不同的RDD,供给下一个“转换”使用。
    • 转换得到的RDD是惰性求值的,也就是说,整个转换过程只是记录了转换的轨迹,并不会发生真正的计算,只有遇到行动操作时,才会发生真正的计算,开始从血缘关系源头开始,进行物理的转换操作。
    转换 含义
    map(func) 返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成
    filter(func) 返回一个新的RDD,该RDD由经过func函数(在func函数中添加_.contains()来添加过滤条件)计算后返回值为true的输入元素组成
    flatMap(func) 类似于map,但是每一个输入元素可以被映射为0或多个输出元素(所以func应该返回一个序列,而不是单一元素)
    mapPartitions(func) 类似于map,但独立地在RDD的每一个分片上运行,因此在类型为T的RDD上运行时,func的函数类型必须是Iterator[T] => Iterator[U]
    mapPartitionsWithIndex(func) 类似于mapPartitions,但func带有一个整数参数表示分片的索引值,因此在类型为T的RDD上运行时,func的函数类型必须是(Int, Interator[T]) => Iterator[U]
    union(otherDataset) 对源RDD和参数RDD求并集后返回一个新的RDD(不去重
    intersection(otherDataset) 对源RDD和参数RDD求交集后返回一个新的RDD
    distinct([numTasks])) 对源RDD进行去重后返回一个新的RDD
    groupByKey([numTasks]) 在一个(K,V)的RDD上调用,返回一个(K, Iterator[V])的RDD
    reduceByKey(func, [numTasks]) 在一个(K,V)的RDD上调用,返回一个(K,V)的RDD,使用指定的reduce函数,将相同key的值聚合到一起,与groupByKey类似,reduce任务的个数可以通过第二个可选的参数来设置
    sortByKey([ascending], [numTasks]) 在一个(K,V)的RDD上调用,K必须实现Ordered接口,返回一个按照key进行排序的(K,V)的RDD
    sortBy(func,[ascending], [numTasks]) 与sortByKey类似,但是更灵活
    join(otherDataset, [numTasks]) 在类型为(K,V)和(K,W)的RDD上调用,返回一个相同key对应的所有元素对在一起的(K,(V,W))的RDD
    cogroup(otherDataset, [numTasks]) 在类型为(K,V)和(K,W)的RDD上调用,返回一个(K,(Iterable<V>,Iterable<W>))类型的RDD
    coalesce(numPartitions) 减少 RDD 的分区数到指定值。
    repartition(numPartitions) 重新给 RDD 分区
    repartitionAndSortWithinPartitions(partitioner) 重新给 RDD 分区,并且每个分区内以记录的 key 排序
    1),本地文件系统的数据读写
    • 读取本地文件
    // 因为Spark采用了惰性机制,在执行转换操作的时候,即使输入了错误的语句,spark-shell也不会马上报错(假设word123.txt不存在)
    scala>val textFile = sc.textFile("file:///usr/local/spark/mycode/wordcount/word.txt")
    // 执行行动操作,查看数据集的第一个元素,才会真正的执行。
    textFile.first()
    
    
    • 写入本地文件
    scala> val  textFile = sc.textFile("file:///usr/local/spark/mycode/wordcount/word.txt")
    // 写入文件系统的指定目录中
    scala> textFile.saveAsTextFile("file:///usr/local/spark/mycode/wordcount/writeback")
    // 查看文件
    cd /usr/local/spark/mycode/wordcount/writeback/
    ls
    // 文件结果
    part-r-00000
    _SUCCESS
    
    
    2),分布式文件向HDFS的数据读写
    • 读取HDFS文件系统

      从分布式文件系统HDFS中读取数据,也是采用textFile()方法,可以为textFile()方法提供一个HDFS文件或目录地址,如果是一个文件地址,它会加载该文件,如果是一个目录地址,它会加载该目录下的所有文件的数据

    // 调用读取文件的方法
    scala> val  textFile = sc.textFile("hdfs://localhost:9000/user/hadoop/word.txt")
    // 查看数据的第一个数据
    scala> textFile.first()
    // 以下三种方式是等价的,推荐使用第二种,因为已经在hdfs的配置文件中指定了连接信息
    scala> val textFile = sc.textFile("hdfs://localhost:9000/user/hadoop/word.txt")
    scala> val textFile = sc.textFile("/user/hadoop/word.txt")
    scala> val textFile = sc.textFile("word.txt") // 只是在当前登录用户的家目录下
    
    
    
    • 写入HDFS文件系统
    // 从HDFS中读取文件
    scala> val  textFile = sc.textFile("hdfs://localhost:9000/mycode/wordcount/word.txt")
    // 写入HDFS文件系统的指定目录中
    // 方法1:
    scala> textFile.saveAsTextFile("hdfs://localhost:9000/user/hadoop/writeback")
    // 方法2:
    scala> textFile.saveAsTextFile("/user/hadoop/writeback")
    
    
    3),JSON文件的数据读写

    JSON(JavaScriptObject Notation) 是一种轻量级的数据交换格式

    Spark提供了一个JSON样例数据文件,存放在“/usr/local/spark/examples/src/main/resources/people.json”中;启动usr/local/spark是spark的安装目录

    {"name":"Michael"}
    {"name":"Andy", "age":30}
    {"name":"Justin", "age":19} 
    
    • 加载本地文件系统直中的Json文件
    scala> val  jsonStr = sc.textFile("file:///root/wordCount/people.json")
    scala> jsonStr.foreach(println)
    {"name":"Michael"}
    {"name":"Andy", "age":30}
    {"name":"Justin", "age":19}
    
    • 解析Json数据
      • Scala中有一个自带的JSON库——scala.util.parsing.json.JSON,可以实现对JSON数据的解析
      • JSON.parseFull(jsonString:String)函数,以一个JSON字符串作为输入并进行解析,如果解析成功则返回一个Some(map:Map[String, Any]),如果解析失败则返回None
    import org.apache.spark.SparkContext
    import org.apache.spark.SparkContext._
    import org.apache.spark.SparkConf
    import scala.util.parsing.json.JSON
    object JSONRead {
        def main(args: Array[String]) {
            val inputFile = "file:///usr/local/spark/examples/src/main/resources/people.json"
            val conf = new SparkConf().setAppName("JSONRead")
            val sc = new SparkContext(conf)
            // 加载出来的数据是一个RDD
            val jsonStrs = sc.textFile(inputFile)
            // 解析之后,得到的是Option 类型。有值的时候是Some类型;没有值的时候是None类型
            val result = jsonStrs.map(s => JSON.parseFull(s))
            /*
            1.依次匹配每一个元素,判读那类型是不是Some类型
            */
            result.foreach( {r => r match {
                            case Some(map: Map[String, Any]) => println(map)
                            case None => println("Parsing failed")
                            case other => println("Unknown data structure: " + other)
                    }
            }
            )
        }
    }
    
    
    • 打包、运行
      • 使用之前的普通方式打包、或者使用Maven进行打包。
      • 通过 spark-submit 运行程序
        spark-submit \
        --class "JSONRead" \
        /usr/local/spark/mycode/json/target/scala-2.11/json-project_2.11-1.0.jar
        
        # 输出结果
        Map(name -> Michael)
        Map(name -> Andy, age -> 30.0)
        Map(name -> Justin, age -> 19.0)    
        

    相关文章

      网友评论

          本文标题:离线计算组件篇-Spark-文件读写

          本文链接:https://www.haomeiwen.com/subject/puaffdtx.html