美文网首页
Spark学习笔记七:Spark WebUI和历史日志服务配置

Spark学习笔记七:Spark WebUI和历史日志服务配置

作者: 开发者连小超 | 来源:发表于2019-12-25 15:24 被阅读0次

一、Spark Shell

SparkShell是Spark自带的一个快速原型开发工具,也可以说是Spark的scala REPL(Read-Eval-Print-Loop),即交互式shell。支持使用scala语言来进行Spark的交互式编程。

Spark Shell使用

启动Standalone集群,./start-all.sh
在客户端上启动spark-shell:

./spark-shell --master spark://node01:7077 --name myapp

启动hdfs,创建目录spark/test,上传文件words

启动hdfs集群:
    start-all.sh
创建目录:
    hdfs dfs -mkdir -p /spark/test
上传wc.txt
    hdfs dfs -put /root/test/words /spark/test/

运行wordcount

scala> var rdd = sc.textFile("hdfs://node01:8020/spark/test/words")
.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect()

#运行结果
rdd: Array[(String, Int)] = Array((spark,2), (mr,1), (hello,7), (java,3), (hdfs,1))

浏览器访问http://node01:8888/ 查看Jobs、Stages、Storage、Excutor等信息

图片.png
注:Storage查看需要执行 rdd.cache() 清除缓存rdd.unpersist()

二、历史日志服务配置

如下图所示,已经执行的Applications关闭shell后无法查看历史


图片.png
客户端配置
[root@node04 conf] cp spark-defaults.conf.template spark-defaults.conf

#配置
spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://mycluster/spark/log
spark.history.fs.logDirector  hdfs://mycluster/spark/log
spark.eventLog.compress   true

#注意要先创建文件夹
hdfs dfs -p mkdir /spark/

启动历史日志服务器

[root@node04 sbin] ./start-history-server.sh
#会在当前节点启动历史日志服务器

历史日志服务器浏览器访问 http://node04:18080

启动spark shell后 再关掉,此时已经存了日志到/spark/log

相关文章

网友评论

      本文标题:Spark学习笔记七:Spark WebUI和历史日志服务配置

      本文链接:https://www.haomeiwen.com/subject/iqdcoctx.html