美文网首页
Spark 常见

Spark 常见

作者: 我的小猫不见了 | 来源:发表于2020-04-24 06:19 被阅读0次

    1.以 List 作为源创建 RDD

    val df = sc.parallelize(List(2,8,66,9,34,5))
    
    1. 初始化 sbgma --> 创建spark实例
    val ss = SparkSession
            .builder()
            .master("local")
            .getOrCreate()
            .appName(" spark 2.0")
        val sc = ss.sparkContext  //获取socket
        val df = sc.parallelize(List(2,8,66,9,34,5))
    

    3.初始化SparkStreaming

    import org.apache.spark.sql.SparkSession
    import org.apache.spark.streaming.{Seconds, StreamingContext}
    ------------这里是类名和主函数入口,自己补充
        val ss = SparkSession
          .builder()
          .appName("word count streaming")
          //流式处理中 ,一个job需要开启两个线程。
          .master("local[2]")
          //.enableHiveSupport() //把hive功能打开
          //用于存放临时数据  不设置 默认会在当前目录下创建一个 spark-warehouse
          .config("spark.sql.warehouse.dir", "D:\\BDTC11")
          .getOrCreate()
    
        val sc = ss.sparkContext
        //Spark Streaming
        //def this(sparkContext: SparkContext, batchDuration: Duration)
        //SparkSteaming  设置batch 一般是秒级别
        //每隔10S处理一次
        val ssc = new StreamingContext(sc, Seconds(4))
        //输入源
        //监听端口 192.168.0.251  7777
        val sourceDStream = ssc.socketTextStream("192.168.1.4", 7777)
    
    1. RDD的合并(基于内存的,会生成新的RDD,而不是向rdd1里面塞rdd2)
    合并RDD , 这里是取并集 , 相当于数学里面的加法
    val rdd1=sc.parallelize(List(1,2,3))
    val rdd2=sc.parallelize(List(4,5,6))
    val rdd3=rdd1.union(rdd2)
    rdd3.foreach(println)
    1
    2
    3
    4
    5
    6
    

    相关文章

      网友评论

          本文标题:Spark 常见

          本文链接:https://www.haomeiwen.com/subject/ountwhtx.html