美文网首页js css html
PySpark之Python版本如何选择(详细版)

PySpark之Python版本如何选择(详细版)

作者: 菩提老鹰 | 来源:发表于2022-12-05 10:10 被阅读0次
    WechatIMG172.jpeg

    问题背景

    公司目前有两套Spark集群和一套Hadoop集群用来做 数据相关的存储和计算。Hadoop的版本是2.7,Spark两套集群,一个是2.1.0版本,一个是 2.4.3版本。但是两个Spark集群安装的Python版本都是一样的,都是3.6.8

    之前对大数据Spark了解不多,接手之后协助开发在提交 Python Spark任务的时候遇到问题。

    最终定位是因为Python版本的问题导致的。

    关于PySpark

    processing data with Spark in Python

    就是使用Python语言开发Spark任务提交进行数据处理。 PySpark的版本和 Spark 本身的版本一致

    关于PySpark的安装和使用详见官方文档 https://spark.apache.org/docs/latest/api/python/getting_started/install.html#python-version-supported

    Python版本选择

    因为使用Python开发Spark任务,使用的Spark版本就和Python有着密切的关系,但是查找了 Spark官网 没有找到明确的地方指定,什么样的Spark版本需要什么样的Python版本

    网上也找到一个类似的,但是个人感觉不是很详细。

    于是自己使用爬虫的方式,爬取了所有的Python版本清单和Spark清单,然后再选择 Spark对应的Python版本的时候

    1、先看当前Spark版本是多少

    2、从Spark版本清单中找到该版本的发布时间

    3、然后去 Python的版本清单中, 按照python版本排序之后 距离Spark版本的发布时间最近的Python版本,基本就是该Spark版本需要的最新的Python版本了

    但是如果是两个发布时间非常接近,那就往下一个Python版本就行。

    比如 Spark 2.1.0版本是2016/12/28发布的,距离 2016/12/28 最近的Python版本是3.6.0,发布于2016-12-23,按照常理也知道,Python新版本刚发布5天,Spark发布的版本中立马就支持了,肯定不是很现实。

    所以对于 Spark 2.1.0 我们应该选择 3.5.9

    Spark版本对应的Python的最低版本

    • spark 2.1.0 到 2.4.8 版本之间,最低要求是 Python 3.4+

    • spark 3.0.0 以上, 最低要求是 Python 3.7+

    Spark版本对应的Python的最高版本

    判断的依据就是上面提到的:

    Python的版本清单中, **按照python版本排序之后**  距离Spark版本的发布时间最近的Python版本,基本就是该Spark版本需要的最新的Python版本了
    

    目前确定的是:

    • Spark 2.1.0 使用 Python 3.5.2

    • Spark 2.4.3 使用 Python 3.6.8

    参考:

    1、https://zhuanlan.zhihu.com/p/144151332


    原文地址: PySpark之Python版本如何选择(详细版)

    相关文章

      网友评论

        本文标题:PySpark之Python版本如何选择(详细版)

        本文链接:https://www.haomeiwen.com/subject/nrfmfdtx.html