安装scala
配置 /etc/profile 环境变量
source /etc/profile
配置文件
./conf/spark-env.sh中配置Java、Scala环境变量等
export JAVA_HOME=/opt/java/jdk1.8.0_261
export SCALA_HOME=/opt/scala/scala-2.11.12
export HADOOP_CONF_DIR=/opt/hadoop/hadoop-2.7.7/etc/hadoop
export SPARK_LOCAL_DIRS=/opt/spark/spark-2.4.6-bin-hadoop2.7
export SPARK_MASTER_HOST=hadoopM
export SPARK_MASTER_PORT=7077
配置slaves
配置spark环境变量
将spark文件复制到其他节点上。
注:
提交spark任务时,打包的程序只有源代码时,配置文件使用集群spark安装地址中的 hive-site.xml
配置spark history 的webUI
spark history 配置webUI服务 4040端口,在任务结束后可用./conf/spark-env.sh文件中 设置
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://hadoopM:9000/sparkhistory"
./conf/spark-defaults.conf文件中配置
spark.eventLog.enabled true
spark.eventLog.dir hdfs://hadoopM:9000/sparkhistory
spark.eventLog.compress true
其中 Dspark.history.fs.logDirectory 目录 要手动创建。
端口9000 为 hadoop core-site.xml 中 fs.default.name 参数。
启动spark history server
/.../spark/sbin/ 执行start-history-service.sh
UI端口
localhost:18080
另外,配置在yarn WebUI 可跳转到spark WebUI
在yarn-site.xml中 配置
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<property>
<name>yarn.log.server.url</name>
<value>http://hadoopM:19888/jobhistory/logs</value>
</property>
spark-defaults.conf文件中配置
spark.yarn.historyServer.address http://hadoopM:18080
问题:
spark查询hive表报错:
hive schema version 1.2.0 dose not match metastore's schema version 2.3.0
更改 hive-site.xml 中的 hive.metastore.schema.verification 为 false
网友评论