(转)断点调试spark程序

作者: mcdull_zhang | 来源:发表于2018-08-06 18:02 被阅读0次

(转)断点调试spark程序
linux编程入门(七)-使用gdb调试程序
Java基础语法_Day12
Pyspark的Intellij idea环境搭建
spark断点调试
代码调试
IDEA远程调试Spark
idea调试spark断点设置无效的问题
spark应用调试(idea 环境)
Intellij调试程序

原文地址

简介

由于spark有多种运行模式，远程调试的时候，虽然大体步骤相同，但是还是有小部分需要注意的地方，这里记录一下调试运行在spark on yarn模式下的程序。

环境准备

需要完好的Hadoop，spark集群，以便于提交spark on yarn程序。我这里是基于CDH的环境

步骤

1. 随便写个spark程序，比如序列化一个集合，然后求和。然后使用maven打包，上传至集群。可以先提交运行一次，确保可以运行成功

2. 要让远程的spark程序停下来。有两种方式，一种需要修改配置文件，个人不喜欢这种强侵入的做法，所以只用下面这种简单的不用修改任何东西的方式

3. 在spark提交程序命令中加入参数：--driver-java-options "-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=8787"，其中端口可以自己随便定义，别选常用的以免重复即可。例如我的提交命令：spark-submit --class cn.spark.study.core.ParallelizeCollection --master yarn-cluster --num-executors 3 --executor-cores 2 --executor-memory 1G --driver-java-options "-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=8787" /home/spark-study-scala-0.0.1-SNAPSHOT-jar-with-dependencies.jar

4. 在IDEA中配置远程调试

①找到工具栏,点击：RUN -> Edit Configurations

②添加配置