Spark加载PMML进行预测

作者: AleZhang | 来源:发表于2018-05-15 10:14 被阅读0次

Spark加载PMML进行预测
使用PMML部署机器学习模型
自动部署PMML模型生成REST API
算法工程：PMML模型文件内容跟读（通过PMML了解提升数原理）
机器学习模型线上部署感受
何为 PMML？
（转）在Java Web中使用Spark MLlib训练的模型
Spark之导出PMML文件（Python）
Python 3.7.6 机器学习中怎么保存和加载模型
spark sql 和 hive 关于 parquet sche

背景：Spark由2.0.0升级至2.2.1，导致之前同事写的Spark加载PMML的工具jar在调度上跑作业出错

期望：将Spark2.0.0版加载PMML工具jar升级到支持Spark2.2.1

解决：

旧版用法

spark-submit \

--class org.jpmml.spark.SparkPmmlWithHive \

--master yarn \

--queue queueName \

--deploy-mode client \

--jars /appcom/service/hive/lib/datanucleus-core-3.2.10.jar \

--files /appcom/config/hive/hive-site.xml \

${dir}/spark-pmml-1.0-SNAPSHOT.jar ${dir}/etl_lsvm-gxd-0.9.xml db.tbl_1 db.tbl_2

spark-pmml-1.0-SNAPSHOT.jar就是同事之前基于spark2.0.0开发的jar了，但是在我们Spark升级到2.2.1版本之后，就会开始报如下错误，导致调度作业报错。

Exception in thread "main" java.lang.NoSuchMethodError: org.apache.spark.sql.catalyst.expressions.CreateStruct.(Lscala/collection/Seq;)V at org.jpmml.spark.PMMLTransformer.transform(PMMLTransformer.java:149) at org.apache.spark.ml.PipelineModel$$anonfun$transform$1.apply(Pipeline.scala:305) at org.apache.spark.ml.PipelineModel$$anonfun$transform$1.apply(Pipeline.scala:305) at scala.collection.IndexedSeqOptimized$class.foldl(IndexedSeqOptimized.scala:57) at scala.collection.IndexedSeqOptimized$class.foldLeft(IndexedSeqOptimized.scala:66) at scala.collection.mutable.ArrayOps$ofRef.foldLeft(ArrayOps.scala:186) at org.apache.spark.ml.PipelineModel.transform(Pipeline.scala:305) at org.jpmml.spark.SparkPmmlWithHive.main(SparkPmmlWithHive.java:25) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:498) at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:775) at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:180) at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:205) at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:119) at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

这个错误的原因是因为在spark2.0.0里CreateStruct是一个class，但是在spark2.2.1(其实2.1.X就已经改了)中被定义为object

Spark 2.0.0中对CreateStruct的定义

Spark 2.1+中对CreateStruct的定义

根据https://github.com/jpmml/jpmml-evaluator-spark/issues/11这篇文章，已经有大神写了相应的升级版本了，把项目拉下来改改看能不能行

git clone https://github.com/sidfeiner/jpmml-spark.git

这拉取下来的代码是的spark版本是1.X的，因为我们改成2.2.1的，所以再根据这位大神的改改

打开的链接：https://github.com/sidfeiner/jpmml-spark/commit/cf897ed6efe585aad976357ece86081b94f17f75

打开的页面里，他已经把spark的版本升级到2.1.0这个可以解决CreateStruct重新被定义的问题，但是注意我要升级的是2.2.1这里有一点小差别就是PMMLTransformer类中用到的ScalaUDF函数2.1.0版本是接收四个参数的，但是在2.2.1中接收的是5个参数

如果用的是传的是4个参数的则会报错如下，因为服务器上已经是2.2.1版本了

java.lang.NoSuchMethodError: org.apache.spark.sql.catalyst.expressions.ScalaUDF.(Ljava/lang/Object;Lorg/apache/spark/sql/types/DataType;Lscala/collection/Seq;Lscala/collection/Seq;)V