美文网首页
大数据集群搭建-Spark

大数据集群搭建-Spark

作者: 有机会一起种地OT | 来源:发表于2021-02-22 14:24 被阅读0次

    安装scala
    配置 /etc/profile 环境变量
    source /etc/profile

    配置文件

    ./conf/spark-env.sh中配置Java、Scala环境变量等

    export JAVA_HOME=/opt/java/jdk1.8.0_261
    export SCALA_HOME=/opt/scala/scala-2.11.12
    export HADOOP_CONF_DIR=/opt/hadoop/hadoop-2.7.7/etc/hadoop
    export SPARK_LOCAL_DIRS=/opt/spark/spark-2.4.6-bin-hadoop2.7
    export SPARK_MASTER_HOST=hadoopM
    export SPARK_MASTER_PORT=7077
    

    配置slaves
    配置spark环境变量
    将spark文件复制到其他节点上。

    注:
    提交spark任务时,打包的程序只有源代码时,配置文件使用集群spark安装地址中的 hive-site.xml

    配置spark history 的webUI

    spark history 配置webUI服务 4040端口,在任务结束后可用./conf/spark-env.sh文件中 设置

    export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://hadoopM:9000/sparkhistory"
    

    ./conf/spark-defaults.conf文件中配置

    spark.eventLog.enabled true
    spark.eventLog.dir hdfs://hadoopM:9000/sparkhistory
    spark.eventLog.compress true
    

    其中 Dspark.history.fs.logDirectory 目录 要手动创建。
    端口9000 为 hadoop core-site.xml 中 fs.default.name 参数。

    启动spark history server
    /.../spark/sbin/ 执行start-history-service.sh
    UI端口
    localhost:18080

    另外,配置在yarn WebUI 可跳转到spark WebUI
    在yarn-site.xml中 配置

    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>
    <property>
        <name>yarn.log.server.url</name>
        <value>http://hadoopM:19888/jobhistory/logs</value>
    </property>
    

    spark-defaults.conf文件中配置

    spark.yarn.historyServer.address    http://hadoopM:18080
    
    问题:

    spark查询hive表报错:

    hive schema version 1.2.0 dose not match metastore's schema version 2.3.0
    

    更改 hive-site.xml 中的 hive.metastore.schema.verification 为 false

    相关文章

      网友评论

          本文标题:大数据集群搭建-Spark

          本文链接:https://www.haomeiwen.com/subject/uxfnxltx.html