美文网首页
Spark集群- 连接hadoop、hive集群

Spark集群- 连接hadoop、hive集群

作者: heichong | 来源:发表于2019-10-17 17:32 被阅读0次

目的使spark代码提交到集群运行时,能够操作hdfs、hive等

保证所有spark机器都能解析hadoop集群的机器名称

如果spark和hadoop部署在同样的集群,则可以省略这一步
如果spark和hadoop部署在不同的集群,则需要配置hosts文件

复制hdfs、hive配置文件至$SPAR_HOME/conf/文件夹下

hdfs、hive配置文件为:

  • core-site.xml
  • hdfs-site.xml
  • hive-site.xml

我们hadoop、hive集群都是通过CDH方式安装,这些配置文件在/etc/hive/conf/
所有的spark机器上都要copy这三个文件
我的命令如下:

cd /etc/hive/conf/
scp core-site.xml hive-site.xml hdfs-site.xml hadoop@lfg01:/data/spark/spark-2.4.4-bin-hadoop2.7/conf/
scp core-site.xml hive-site.xml hdfs-site.xml hadoop@lfg02:/data/spark/spark-2.4.4-bin-hadoop2.7/conf/
scp core-site.xml hive-site.xml hdfs-site.xml hadoop@lfg03:/data/spark/spark-2.4.4-bin-hadoop2.7/conf/

spark-submit方式

  1. spark集群standalone client模式
spark-submit \
--class hdfs.GeohashTest \
--master  spark://lfg01:7077 \
--deploy-mode client \
/home/hadoop/sparktest-1.0-SNAPSHOT.jar

这种方式,SparkSubmit 做为Client端和运行driver程序,能在提交的本机上看到程序运行日志信息

  1. spark集群standalone cluster模式
spark-submit \
--class hdfs.GeohashTest \
--master  spark://lfg01:7077 \
--deploy-mode cluster \
/home/hadoop/sparktest-1.0-SNAPSHOT.jar

这种方式客户端的SparkSubmit进程会在应用程序提交给集群之后就退出,Master会在集群中选择一个Worker进程生成一个子进程DriverWrapper来启动driver程序,所以提交的客户端是看不到程序运行日志的。

注意:cluster模式,每一个节点都有可能运行driver程序,所以需要每台节点上都有程序jar文件,否则会报java.nio.file.NoSuchFileException: /home/hadoop/sparktest-1.0-SNAPSHOT.jar这种错误。正确的方式是先把jar包提交到hdfs上,然后把jar路径改为hdfs的路径

hadoop fs -put /home/hadoop/sparktest-1.0-SNAPSHOT.jar /zongbo/jar/
spark-submit \
--class hdfs.GeohashTest \
--master  spark://lfg01:7077 \
--deploy-mode cluster \
hdfs:/zongbo/jar/sparktest-1.0-SNAPSHOT.jar

相关文章

  • Spark集群- 连接hadoop、hive集群

    目的使spark代码提交到集群运行时,能够操作hdfs、hive等 保证所有spark机器都能解析hadoop集群...

  • Docker搭建Spark和Hive集群

    参考资料使用 Docker 搭建 Hadoop + Hive + Spark 集群(上)[https://bamb...

  • Spark SQL 探索

    1.环境说明 Hadoop 2.7.1 集群Spark 2.0.1集群Hive2.0.1 2. 内容简介 Spar...

  • Hive 安装

    安装 Hadoop 集群 参考 Docker Hadoop 集群搭建 下载 Hive Hive下载地址本实例下载版...

  • Hive with Spark 实战

    前言 由于我司的系统已存在稳定的Hive on Hadoop集群以及Spark集群,随着业务发展,需要打通这两者,...

  • hdfs文件迁移

    hadoop跨集群之间迁移HDFS数据 不同hadoop集群之间迁移hive数据 hadoop跨集群之间迁移hiv...

  • spark yarn集群搭建(三:spark集群搭建)

    spark yarn集群搭建(一:准备工作) spark yarn集群搭建(二:hadoop集群搭建) Maste...

  • XX公司大数据笔试题(A)

    XX公司大数据笔试题(A) 大数据基础(HDFS/Hbase/Hive/Spark〉1.1. 对出Hadoop集群...

  • 大数据集群搭建2

    大数据集群搭建 本文档将搭建以下集群 hadoop 集群 zookeeper 集群 hbase 集群 spark ...

  • 大数据集群搭建

    大数据集群搭建 本文档将搭建以下集群 hadoop 集群 zookeeper 集群 hbase 集群 spark ...

网友评论

      本文标题:Spark集群- 连接hadoop、hive集群

      本文链接:https://www.haomeiwen.com/subject/ldtvmctx.html