为什么建议在Spark中使用Scala定义UDF

为什么建议在Spark中使用Scala定义UDF

作者: LestatZ | 来源:发表于2019-03-27 12:31 被阅读0次

为什么建议在Spark中使用Scala定义UDF
【Spark 自定义UDF】
spark2.1 sql 自定义udf以及spark sql a
Spark函数扩展功能介绍
学习中的关键的问题
Learning Spark [5] - UDF(User-de
sparkSQL中UDF的使用
Java与Scala 使用Maven混合编译打包
Java 与 Scala 使用Maven混合编译打包
Java 与 Scala 使用Maven混合编译打包

虽然在Pyspark中，驱动程序是一个python进程，但是它创建的SparkSession对象以及其他DataFrames或者RDDs等都是利用Python封装过的 JVM对象 。简单地说，虽然控制程序是Python，但它实际上是python代码告诉集群上的分布式Scala程序该做什么。数据存储在JVM的内存中，并由Scala代码进行转换。

将这些对象从JVM内存中取出并将它们转换为Python可以读取的形式（称为序列化和反序列化）的过程开销是很大的。
一般情况下，将计算结果收集回Python驱动程序通常针对低容量样本，并且不经常进行，因此这种开销相对不被注意。
但是，如果程序在集群中的对整个数据集的Python和JVM对象之间来回转换时，性能将会受到显著影响。

Credit: https://medium.com/wbaa/using-scala-udfs-in-pyspark-b70033dd69b9

在上图中，Python程序的指令（1）被转换为Spark执行计划，并通过SparkSession JVM对象（2）传递给集群中不同机器上的两个执行程序（3）。执行程序通常会从外部源（如HDFS）加载数据，在内存中执行某些转换，然后将数据写回外部存储。数据将在程序的生命周期内保留在JVM（3）中。

而使用Python UDF时，数据必须经过几个额外的步骤。首先，数据必须从Java（4）序列化，这样运行UDF所在的Python进程才可以将其读入（5）。然后，Python运算完的结果经过一些列序列化和反序列化然后返回到JVM。

那么我们该如何优化呢？
我们可以直接使用Scala来编写Spark UDF。
Scala UDF可以直接在执行程序的JVM中运行，因此数据将跳过两轮序列化和反序列化，处理的效率将会比使用Python UDF高的多。

总结

启动Python进程的开销不小，但是真正的开销在于将数据序列化到Python中。推荐在Spark中定义UDF时首选Scala或Java，即使UDFs是用Scala/Java编写的，不用担心，我们依然可以在python(pyspark)中使用它们。

参考资料

Using Scala UDFs in PySpark

[BOOK] Spark - The Definitive Guide

相关文章

为什么建议在Spark中使用Scala定义UDF
虽然在Pyspark中，驱动程序是一个python进程，但是它创建的SparkSession对象以及其他DataF...
【Spark 自定义UDF】
在sparksql中使用udf，比较简单，先在spark中自定义udf算子函数,然后进行注册，之后再sql中就可以...
spark2.1 sql 自定义udf以及spark sql a
最近在写spark，等我更新。。。。。 spark sql 自定义udf spark 定义视图说明：在dataf...
Spark函数扩展功能介绍
问题导读 1.UDF对spark sql的作用是什么？ 2.用Scala编写的UDF与普通的Scala函数唯一的区...
学习中的关键的问题
hive中的topn操作需要使用到hive的窗口函数执行操作的。 spark的udf可以实现自定义的udf的函数的...
Learning Spark [5] - UDF(User-de
UDF 为了满足用户的不同的分析需求，Spark允许使用者自己定义函数，供用户在Spark SQL中使用。例如数据...
sparkSQL中UDF的使用
在spark中使用sql时一些功能需要自定义方法实现，这时候就可以使用UDF功能来实现多参数支持 UDF不支持参...
Java与Scala 使用Maven混合编译打包
在SpringBoot上使用spark的时候会遇到的混合编译问题，在java代码中打包会找不到scala定义的包，...
Java 与 Scala 使用Maven混合编译打包
在SpringBoot上使用spark的时候会遇到的混合编译问题，在java代码中打包会找不到scala定义的包，...
Java 与 Scala 使用Maven混合编译打包
在SpringBoot上使用spark的时候会遇到的混合编译问题，在java代码中打包会找不到scala定义的包，...

网友评论

Spark学习笔记

本文标题：为什么建议在Spark中使用Scala定义UDF

本文链接：https://www.haomeiwen.com/subject/zbqzvqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

Spark学习笔记

热点阅读

Spark学习笔记

关于我们|服务条款|联系我们|为什么建议在Spark中使用Scala定义UDF|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！