美文网首页
Spark学习笔记七:Spark WebUI和历史日志服务配置

Spark学习笔记七:Spark WebUI和历史日志服务配置

作者: 开发者连小超 | 来源:发表于2019-12-25 15:24 被阅读0次

    一、Spark Shell

    SparkShell是Spark自带的一个快速原型开发工具,也可以说是Spark的scala REPL(Read-Eval-Print-Loop),即交互式shell。支持使用scala语言来进行Spark的交互式编程。

    Spark Shell使用

    启动Standalone集群,./start-all.sh
    在客户端上启动spark-shell:

    ./spark-shell --master spark://node01:7077 --name myapp
    

    启动hdfs,创建目录spark/test,上传文件words

    启动hdfs集群:
        start-all.sh
    创建目录:
        hdfs dfs -mkdir -p /spark/test
    上传wc.txt
        hdfs dfs -put /root/test/words /spark/test/
    

    运行wordcount

    scala> var rdd = sc.textFile("hdfs://node01:8020/spark/test/words")
    .flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect()
    
    #运行结果
    rdd: Array[(String, Int)] = Array((spark,2), (mr,1), (hello,7), (java,3), (hdfs,1))
    

    浏览器访问http://node01:8888/ 查看Jobs、Stages、Storage、Excutor等信息

    图片.png
    注:Storage查看需要执行 rdd.cache() 清除缓存rdd.unpersist()

    二、历史日志服务配置

    如下图所示,已经执行的Applications关闭shell后无法查看历史


    图片.png
    客户端配置
    [root@node04 conf] cp spark-defaults.conf.template spark-defaults.conf
    
    #配置
    spark.eventLog.enabled           true
    spark.eventLog.dir               hdfs://mycluster/spark/log
    spark.history.fs.logDirector  hdfs://mycluster/spark/log
    spark.eventLog.compress   true
    
    #注意要先创建文件夹
    hdfs dfs -p mkdir /spark/
    

    启动历史日志服务器

    [root@node04 sbin] ./start-history-server.sh
    #会在当前节点启动历史日志服务器
    

    历史日志服务器浏览器访问 http://node04:18080

    启动spark shell后 再关掉,此时已经存了日志到/spark/log

    相关文章

      网友评论

          本文标题:Spark学习笔记七:Spark WebUI和历史日志服务配置

          本文链接:https://www.haomeiwen.com/subject/iqdcoctx.html