美文网首页
Spark加载PMML进行预测

Spark加载PMML进行预测

作者: AleZhang | 来源:发表于2018-05-15 10:14 被阅读0次

    背景:Spark由2.0.0升级至2.2.1,导致之前同事写的Spark加载PMML的工具jar在调度上跑作业出错

    期望:将Spark2.0.0版加载PMML工具jar升级到支持Spark2.2.1

    解决:

    旧版用法

    spark-submit \

    --class org.jpmml.spark.SparkPmmlWithHive \

    --master yarn \

    --queue queueName \

    --deploy-mode client \

    --jars /appcom/service/hive/lib/datanucleus-core-3.2.10.jar \

    --files /appcom/config/hive/hive-site.xml \

    ${dir}/spark-pmml-1.0-SNAPSHOT.jar ${dir}/etl_lsvm-gxd-0.9.xml db.tbl_1 db.tbl_2

    spark-pmml-1.0-SNAPSHOT.jar就是同事之前基于spark2.0.0开发的jar了,但是在我们Spark升级到2.2.1版本之后,就会开始报如下错误,导致调度作业报错。

    Exception in thread "main" java.lang.NoSuchMethodError: org.apache.spark.sql.catalyst.expressions.CreateStruct.(Lscala/collection/Seq;)V at org.jpmml.spark.PMMLTransformer.transform(PMMLTransformer.java:149) at org.apache.spark.ml.PipelineModel$$anonfun$transform$1.apply(Pipeline.scala:305) at org.apache.spark.ml.PipelineModel$$anonfun$transform$1.apply(Pipeline.scala:305) at scala.collection.IndexedSeqOptimized$class.foldl(IndexedSeqOptimized.scala:57) at scala.collection.IndexedSeqOptimized$class.foldLeft(IndexedSeqOptimized.scala:66) at scala.collection.mutable.ArrayOps$ofRef.foldLeft(ArrayOps.scala:186) at org.apache.spark.ml.PipelineModel.transform(Pipeline.scala:305) at org.jpmml.spark.SparkPmmlWithHive.main(SparkPmmlWithHive.java:25) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:498) at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:775) at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:180) at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:205) at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:119) at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

    这个错误的原因是因为在spark2.0.0里CreateStruct是一个class,但是在spark2.2.1(其实2.1.X就已经改了)中被定义为object

    Spark 2.0.0中对CreateStruct的定义 Spark 2.1+中对CreateStruct的定义  

    根据https://github.com/jpmml/jpmml-evaluator-spark/issues/11这篇文章,已经有大神写了相应的升级版本了,把项目拉下来改改看能不能行

    git clone  https://github.com/sidfeiner/jpmml-spark.git

    这拉取下来的代码是的spark版本是1.X的,因为我们改成2.2.1的,所以再根据这位大神的改改

    打开的链接:https://github.com/sidfeiner/jpmml-spark/commit/cf897ed6efe585aad976357ece86081b94f17f75

    打开的页面里,他已经把spark的版本升级到2.1.0这个可以解决CreateStruct重新被定义的问题,但是注意我要升级的是2.2.1这里有一点小差别就是PMMLTransformer类中用到的ScalaUDF函数2.1.0版本是接收四个参数的,但是在2.2.1中接收的是5个参数

    如果用的是传的是4个参数的则会报错如下,因为服务器上已经是2.2.1版本了

    java.lang.NoSuchMethodError: org.apache.spark.sql.catalyst.expressions.ScalaUDF.(Ljava/lang/Object;Lorg/apache/spark/sql/types/DataType;Lscala/collection/Seq;Lscala/collection/Seq;)V

    第五个参数:None$.empty()  -这个参数我困了好久,不知道填什么。。。

    解决了这个问题基本就差不多了

    cd jpmml-spark

    mvn clean install

    生成

    pmml-spark/target/pmml-spark-1.0-SNAPSHOT.jar - Library JAR file.

    pmml-spark-example/target/example-1.0-SNAPSHOT.jar - Example application JAR file.

    其中example-1.0-SNAPSHOT.jar就是我们要的jar,重命名spark-pmml-2.0.jar替换同事的旧版本jar包即可。

    代码:

    参考:

    https://github.com/jpmml/jpmml-evaluator-spark

    https://github.com/jpmml/jpmml-evaluator-spark/issues/11

    https://github.com/sidfeiner/jpmml-spark

    相关文章

      网友评论

          本文标题:Spark加载PMML进行预测

          本文链接:https://www.haomeiwen.com/subject/likedftx.html