美文网首页
Pyspark的Intellij idea环境搭建

Pyspark的Intellij idea环境搭建

作者: 祗談風月 | 来源:发表于2018-07-28 15:21 被阅读510次

    为什么需要IDE

    在本地搭建一个spark环境可以方便spark代码的调试,可以和一般程序一样打断点,看变量,否则可能就只能打很多日志来debug了

    选哪个IDE

    Pyspark的IDE我用Intellij idea,我开发java程序时用idea,安装了python插件之后和pycharm是一样的,少装了一个pycharm,好处是不需要配两个IDE了,两者的配置步骤,位置基本是一致的

    安装步骤

    1. 安装java,scala,并配置到环境变量
    2. 解压spark-2.3.0-bin-hadoop2.7.tgz, hadoop-2.7.6.tar.gz到本地某目录,我这里是 D:\CodeClub\Lib\
    3. 配置SPARK_HOME=D:\CodeClub\Lib\spark-2.3.0-bin-hadoop2.7HADOOP_HOME=D:\CodeClub\Lib\hadoop-2.7.6到环境变量
    4. https://github.com/steveloughran/winutils 选择你安装的Hadoop版本号,然后进入到bin目录下,下载winutils.exe文件,将这个文件放入到Hadoop的bin目录下
    5. spark-streaming-kafka-0-8-assembly_2.11-2.3.0.jar 包放入本地的SPARK_HOME下的jars目录下(读kafka流使用)
    6. 新建空白python工程
    7. 新建一个py文件,写一个小的spark demo程序
    8. run/debug configuration中选择python
    9. 在python的配置页中配置环境变量(必须配置在run/debug configurations中,我配置在系统环境变量中不生效,可能是哪里出错了)
      PYTHONPATH=D:\CodeClub\Lib\spark-2.3.0-bin-hadoop2.7\python;D:\CodeClub\Lib\spark-2.3.0-bin-hadoop2.7\python\lib\py4j-0.10.6-src.zip;PYTHONUNBUFFERED=1
    10. run/debug 看看效果吧

    参考链接

    ps

    总结本文的时候,有几个小环节已经忘了,如果按步骤操作后还有问题,那么留言我会尽快回复_

    相关文章

      网友评论

          本文标题:Pyspark的Intellij idea环境搭建

          本文链接:https://www.haomeiwen.com/subject/weuomftx.html