大数据集群搭建-Spark

作者: 有机会一起种地OT | 来源:发表于2021-02-22 14:24 被阅读0次

安装scala
配置 /etc/profile 环境变量
source /etc/profile

配置文件

./conf/spark-env.sh中配置Java、Scala环境变量等

export JAVA_HOME=/opt/java/jdk1.8.0_261
export SCALA_HOME=/opt/scala/scala-2.11.12
export HADOOP_CONF_DIR=/opt/hadoop/hadoop-2.7.7/etc/hadoop
export SPARK_LOCAL_DIRS=/opt/spark/spark-2.4.6-bin-hadoop2.7
export SPARK_MASTER_HOST=hadoopM
export SPARK_MASTER_PORT=7077

配置slaves
配置spark环境变量
将spark文件复制到其他节点上。

注：
提交spark任务时，打包的程序只有源代码时，配置文件使用集群spark安装地址中的 hive-site.xml

配置spark history 的webUI

spark history 配置webUI服务 4040端口，在任务结束后可用./conf/spark-env.sh文件中设置

export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://hadoopM:9000/sparkhistory"

./conf/spark-defaults.conf文件中配置

spark.eventLog.enabled true
spark.eventLog.dir hdfs://hadoopM:9000/sparkhistory
spark.eventLog.compress true

其中 Dspark.history.fs.logDirectory 目录要手动创建。
端口9000 为 hadoop core-site.xml 中 fs.default.name 参数。

启动spark history server
/.../spark/sbin/ 执行start-history-service.sh
UI端口
localhost：18080

另外，配置在yarn WebUI 可跳转到spark WebUI
在yarn-site.xml中配置

<property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
</property>
<property>
    <name>yarn.log.server.url</name>
    <value>http://hadoopM:19888/jobhistory/logs</value>
</property>

spark-defaults.conf文件中配置

spark.yarn.historyServer.address    http://hadoopM:18080

问题：

spark查询hive表报错：

hive schema version 1.2.0 dose not match metastore's schema version 2.3.0

更改 hive-site.xml 中的 hive.metastore.schema.verification 为 false

网友评论

本文标题：大数据集群搭建-Spark

本文链接：https://www.haomeiwen.com/subject/uxfnxltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

大数据集群搭建-Spark

配置文件

配置spark history 的webUI

问题：

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读