美文网首页
如何在jupyter notebook中使用pyspark

如何在jupyter notebook中使用pyspark

作者: 晨语凡心 | 来源:发表于2020-03-04 18:17 被阅读0次

    注:电脑上必须已经安装java

    第一步:转到官方Apache Spark下载最新版本的Apache Spark,我下载的是spark-2.4.5-bin-hadoop2.6

    第二步:解压缩下载的Spark tar文件

    $ tar -xvf Downloads/spark-2.4.5-bin-hadoop2.6.tgz
    

    第三步:在启动PySpark之前,需要在/etc/profile中设置以下环境变量

    export SPARK_HOME=/home/luban/spark-2.4.5-bin-hadoop2.6
    export PATH=$PATH:/home/luban/spark-2.4.5-bin-hadoop2.6/bin
    export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.7-src.zip:$PYTHONPATH
    export PATH=$SPARK_HOME/python:$PATH
    export PYSPARK_PYTHON=python3
    

    第四步:更新配置文件

    $ source /etc/profile
    

    第五步:安装findspark,并启动或者重启jupyter notebook

    $ pip install findspark
    $ jupyter notebook
    

    第六步:在import pyspark前,运行findspark,它会找到spark安装的位置

    import findspark
    findspark.init()
    

    相关文章

      网友评论

          本文标题:如何在jupyter notebook中使用pyspark

          本文链接:https://www.haomeiwen.com/subject/ymmblhtx.html