Spark 3.0发布啦，改进SQL，弃Python 2，更好的

作者: 老夫不正经 | 来源:发表于2020-06-21 22:21 被阅读0次

Apache Spark 3.0.0正式发布啦，Apache Spark 3.0是在Spark 2.x的基础上开发的，带来了新的想法和功能。

Apache Spark 3.0.0

Spark是一个开源的大数据处理、数据科学、机器学习和数据分析工作负载的统一引擎，自2010年首次发布以来，已经成长为最活跃的开源项目之一；支持Java、Scala、Python、R等语言，并为这些语言提供了相关的SDK。

Spark 3.0中的Spark SQL是这个版本中最活跃的组件，46%的已解决的问题都是是针对Spark SQL的，包括结构化流和MLlib，以及高层API，包括SQL和DataFrames。在经过了大量优化后，Spark 3.0的性能比Spark 2.4快了大约2倍。

Python是目前Spark上使用最广泛的语言；针对Python语言提供的PySpark在PyPI上的月下载量超过500万。在Spark 3.0中，对PySpark的功能和可用性做了不少改进，包括用Python类型提示重新设计pandas UDF API，新的pandas UDF类型，以及更多的Pythonic错误处理。

Python

以下便是Spark 3.0中的功能亮点：包括自适应查询执行，动态分区修剪，ANSI SQL合规性，pandas API的重大改进，结构化流的新UI，调用R用户定义函数的速度提高了40倍，加速器感知的调度器，以及SQL参考文档。

把这些功能按照模块来划分就可以分为以下几个模块：

core、Spark SQL、Structured Streaming
MLlib
SparkR
GraphX
放弃Python 2和R 3.4以下的版的支持；
修复一些已知的问题；

core、Spark SQL、Structured Streaming

突出功能

加速器感知调度器；
自适应查询；
动态分区修剪；
重新设计的pandas UDF API与类型提示；
结构化流用户界面；
目录插件API的支持；
支持Java 11；
支持Hadoop 3；
能够更好的兼容ANSI SQL；

性能提升

自适应查询；
动态分区修剪；
优化9项规则；
最小化表缓存同步性能优化；
将聚合代码分割成小函数；
在INSERT和ALTER TABLE ADD PARTITION命令中增加批处理；
允许聚合器注册为UDAF；

SQL兼容性增强

使用Proleptic Gregorian日历；
建立Spark自己的日期时间模式定义；
为表插入引入ANSI存储分配策略；
在表插入中默认遵循ANSI存储分配规则；
添加一个SQLConf： spark.sql.ansi.enabled，用于开启ANSI模式；
支持聚合表达式的ANSI SQL过滤子句；
支持ANSI SQL OVERLAY功能；
支持ANSI嵌套方括号内的注释；
超出整数范围时抛出异常；
区间算术运算的溢出检查；
当无效字符串被转换为数字类型时，抛出异常；
使用区间乘法和除法的溢出行为与其他操作一致；
为char和decimal添加ANSI类型的别名；
SQL解析器定义了ANSI兼容的保留关键字；
当ANSI模式开启时，禁止使用保留关键字作为标识符；
支持ANSI SQL.LIKE...ESCAPE语法；
支持ANSI SQL布尔-谓词语法；

PySpark增强版

重新设计的pandas UDFs，并提供类型提示；
允许Pandas UDF采用pd.DataFrames的迭代器；
支持StructType作为Scalar Pandas UDF的参数和返回类型；
通过Pandas UDFs支持Dataframe Cogroup；
增加mapInPandas，允许DataFrames的迭代器；
部分SQL函数也应该取数据列名；
让PySpark的SQL异常更加Pythonic化；

扩展性增强

目录插件；
数据源V2 API重构；
Hive 3.0和3.1的版本的元存储支持；
将Spark插件接口扩展到驱动程序；
可通过自定义指标来扩展Spark指标系统；
为用于扩展列式处理支持提供了开发者API；
使用DSV2的内置源迁移：parquet, ORC, CSV, JSON, Kafka, Text, Avro；
允许在SparkExtensions中注入函数；

连接器增强

在数据源表中支持spark.sql.statistics.fallBackToHdfs；
升级Apache ORC到1.5.9；
支持CSV数据源的过滤器；
使用本地数据源优化插入分区Hive表；
升级Kafka到2.4.1；
新的内置二进制文件数据源，新的无操作批处理数据源和无操作流接收器；

K8s中的原生Spark应用

使用K8S进行更灵敏的动态分配，并在K8S上增加对Spark的Kerberos支持；
使用Hadoop兼容的文件系统支持客户端依赖性；
在k8s后台增加可配置的认证秘密源；
支持K8s的子路径挂载；
在PySpark Bindings for K8S中把Python 3作为默认选项；

MLib

为Binarizer、StringIndexer 、StopWordsRemover 和PySpark QuantileDiscretizer添加了多列支持；
支持基于树的特征转换；
增加了两个新的评估器MultilabelClassificationEvaluator和RankingEvaluator；
增加了PowerIterationClustering的R API；
添加了用于跟踪ML管道状态的Spark ML监听器；
在Python中的梯度提升树中添加了带有验证集的拟合。
增加了RobustScaler变压器；
添加了因子化机器分类器和回归器；
增加了高斯奈夫贝叶斯和互补奈夫贝叶斯；

此外，在Spark 3.0中，Pyspark中的多类逻辑回归现在将返回LogisticRegressionSummary，而不是其子类BinaryLogisticRegressionSummary；pyspark.ml.param.shared.Has* mixins也不再提供任何set(self, value)setter方法，而是使用各自的self.set(self., value)代替。

SparkR

通过矢量化的R gapply()、dapply()、createDataFrame、collect()提高性能来优化SparkR的互操作性；

还有 "eager execution "的R shell，IDE以及迭代聚类的R API。

弃用组件

弃用Python 2的支持；
弃用R 3.4以下版本的支持；
弃用Deprecate UserDefinedAggregateFunction；

此次的Spark 3.0也算是一个大版本，不仅带来了不少新功能、也修复了很多已知的问题，在性能上有了很大的提升。

自从Python官方宣布停止维护Python2之后，各大组件也是纷纷响应，都停止了Python的支持，各位项目学习Python的小伙伴也是可以考虑直接学习Python 3了。

老夫虽不正经，但老夫一身的才华！关注我，获取更多编程科技知识。

网友评论

本文标题：Spark 3.0发布啦，改进SQL，弃Python 2，更好的

本文链接：https://www.haomeiwen.com/subject/fkszxktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！