提交方式
使用参数jars即可
--jars "/path/to/local/xxx.jar"
pyspark代码中使用方式
sc._jvm.demo.FeatureCalculateDemo
或者
spark._jvm.demo.FeatureCalculateDemo
此处 demo.FeatureCalculateDemo 为 自己的类的引用路径
遇到的坑
在使用过程中如果需要将spark session传入jar内的方法,直接传入pyspark的sparksession会出现
AttributeError: 'SparkSession' object has no attribute '_get_object_id'
此时只需要将spark session改为java的spark session。
具体如下
原始代码假设为 spark._jvm.demo.FeatureCalculateDemo(spark, 10)
修改后为 spark._jvm.demo.FeatureCalculateDemo(spark._jsparkSession, 10)
网友评论