美文网首页
大数据面试

大数据面试

作者: 我的小猫不见了 | 来源:发表于2020-04-24 19:51 被阅读0次

    93.用spark 实现WordCount

    import org.apache.log4j.{Level, Logger}
    import org.apache.spark.sql.SparkSession
    
    /**
     * Created by Administrator on 2019/11/25
     */
    object TOK {
      def main(args: Array[String]): Unit = {
    
        Logger.getLogger("org").setLevel(Level.OFF)
        Logger.getLogger("akka").setLevel(Level.OFF)
        System.setProperty("hadoop.home.dir", "E:\\hadoop-2.6.0-cdh5.15.0")
        val ss = SparkSession
          .builder()
          .appName(" spark 2.0")
          .master("local")
          .getOrCreate()
        val sc = ss.sparkContext  //获取socket
        val df = sc.textFile("D:\\hadoop.txt")  // 
        df.map(x=>(x,1)).reduceByKey((x,y)=>(x+y)).foreach(println)
    
        "hello","jack","desire","hello","mask","hello"
        (hello,3)
        (jack,1)
        (desire,1)
        (mask,1)
      }
    }
    

    1.1.spark里面 RDD.persist和RDD.cache的区别
    cache是memory only , 而persist可以选择多种固化方式 , 不仅仅局限于内存之中

    相关文章

      网友评论

          本文标题:大数据面试

          本文链接:https://www.haomeiwen.com/subject/dnrqwhtx.html