spark在集群提交sparkStreaming程序

spark在集群提交sparkStreaming程序

作者: 早点起床晒太阳 | 来源:发表于2020-07-21 10:58 被阅读0次

spark在集群提交sparkStreaming程序
大数据技术，Spark任务调度原理四种集群部署模式介绍
如何为Spark应用程序分配--num-executors，--
Spark 任务提交
spark-submit 参数讲解
Spark之WordCount集群
spark-submit yarn错误解决
大数据开发-问题总结
Spark跨集群提交
Spark基本概念

参考资料
https://dongkelun.com/2018/06/19/sparkSubmitKafka/

前言

sparkStreaming程序在本地IDEA 测试完以后，要到服务器上部署程序并运行，今天来测试下在服务器上提交以及遇到的问题

具体操作

具体思路

这边的具体思路是使用依赖包上传到hdfs上，使用spark的 --jars参数来添加依赖。然后maven打包只打包相关代码就可以，不需要添加依赖。

1、pom文件中的build

具体pom的bulid

 <build>
        <plugins>
            <plugin>
                <groupId>org.scala-tools</groupId>
                <artifactId>maven-scala-plugin</artifactId>
                <version>2.15.2</version>
                <executions>
                    <execution>
                        <goals>
                            <goal>compile</goal>
                            <goal>testCompile</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>

            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-jar-plugin</artifactId>
                <version>2.6</version>
            </plugin>
        </plugins>
    </build>

2、提交参数

这里只是给出示例，和spark-submit提交普通程序的样式一样

/opt/beh/core/spark/bin/spark-submit  --master yarn  --class com.example.testspark.sparkstreaming.Demo  --num-executors 2 --executor-memory 4g --executor-cores 2 --jars      hdfs:///user/zgh/jars/spark-streaming-kafka-0-10_2.11-2.4.1.jar,hdfs:///user/zgh/jars/kafka-clients-2.5.0.jar /home/hadoop/zgh/testspark-0.0.1-SNAPSHOT.jar

遇到的问题

1、缺少依赖包

java.lang.NoClassDefFoundError: org/apache/kafka/common/serialization/StringDeserializer

org.apache.spark.internal.Logging. $init$ (Lorg/apache/spark/internal/Logging;)V

这种缺少依赖包的问题是因为maven打包没有添加依赖，所以要是用spark的--jars参数来添加jar （最好使用hdfs路径，本地路径的话需要在每个节点的本地都有这么个路径，不太方便）

2、Lost task 0.0 in stage 0.0 (TID 0, hebing2.novalocal, executor 1): java.io.IOException: unexpected exception type

版本不一致，集群上scala的版本是2.11 .但是我使用的maven依赖的版本是2.12。所以我将maven依赖的spark相关的依赖的scala版本改为了2.11

后续遗留问题

这种方式我觉得不是一样好的方式，虽然可以打包，可以运行。
存在的隐患在于:因为依赖具有传递性，我们不可能每次都根据报错把需要的jar包一点点的网上传。肯定有一种策略可以将所需要的打包。（这一块后续我在补充吧）。

相关文章

spark在集群提交sparkStreaming程序
参考资料https://dongkelun.com/2018/06/19/sparkSubmitKafka/ 前言...
大数据技术，Spark任务调度原理四种集群部署模式介绍
一、spark-submit任务提交机制上面是spark在集群提交任务最常见的命令，其中： --class是程序...
如何为Spark应用程序分配--num-executors，--
前言在我们提交spark程序时，应该如何为Spark集群配置--num-executors， - execut...
Spark 任务提交
提交的应用程序 Spark的bin目录中的Spark -submit脚本用于在集群上启动应用程序。它可以通过一个统...
spark-submit 参数讲解
spark-submit 可以提交任务到 spark 集群执行，也可以提交到 hadoop 的 yarn 集群执行...
Spark之WordCount集群
本文记录用Scala编写WordCount并提交到Spark集群运行。在搭建本集群之前必须先搭建好Spark集群，...
spark-submit yarn错误解决
Spark 集群提交模式 Spark一般常用三种提交模式，local、独立集群、yarn 1.提交配置优先级应用...
大数据开发-问题总结
1，利用scala语言开发spark程序实现单词统计–集群运行打成jar包提交到集群中运行运行出错。原因：类...
Spark跨集群提交
背景线上存在两套yarn集群，现在需要将spark应用从集群1提交至集群2上面运行解决方法在spark-en...
Spark基本概念
Spark基本概念 Application 用户在 spark 上构建的程序，包含了 driver 程序以及在集群...

网友评论

本文标题：spark在集群提交sparkStreaming程序

本文链接：https://www.haomeiwen.com/subject/yrxikktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|spark在集群提交sparkStreaming程序|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！