pycharm + spark 的实现

作者: 盗梦者_56f2 | 来源:发表于2018-04-15 16:34 被阅读119次

    这篇博客主要介绍了在window上(类unix上也是可行的)实现在pycharm上编写spark脚本。在Windows上跑主要是为了测试,脚本没问题了,我们就需要把脚本上传到spark集群上并提交(spark-submit)运行。

    0. 下载

    0.0. 下载pycharm:大家去官网下载一个社区版(free)的就好了。不差钱的也可以用付费版的。网址是:https://www.jetbrains.com/pycharm/download/#section=windows
    有Windows、Mac、Linux可供选择。
    0.1. 下载spark:同样去官网下载一个spark压缩包就好了,当然是要和你将来要提交job的spark集群上是同一个版本。网址是:http://spark.apache.org/downloads.html
    0.2. 下载hadoop:大家去下载一个hadoop压缩包,版本要和spark上要求的hadoop版本一致,2.7.x版本就可以了。网址是:http://mirror.bit.edu.cn/apache/hadoop/common/

    1. 安装和配置pycharm

    1.1. 安装pycharm就不说了,很简单。
    1.2. 配置pycharm:
    1.2.1. 首先我们把pyspark文件夹复制到site-packages文件夹下。
    我的pyspark文件夹路径:E:\spark-2.2.1-bin-hadoop2.7\python
    我的site-packages文件夹路径:E:\Python\Lib\site-packages
    1.2.2. 我们创建python脚本文件,比如pi.py,我们可以把E:\spark-2.2.1-bin-hadoop2.7\examples\src\main\python路径下pi.py程序复制到我们刚才创建的pi.py脚本。这时候如果你运行程序的话会出现找不到SPARK_HOME的错误。
    1.2.3. 点击右上角的倒三角并点击Edit Configration会出现下面的页面:


    第一步:我们选择脚本路径
    第二步:就是配置我们的SPARK_HOME和HADOOP_HOME路径了。


    之后点击apply和OK就算是配置完了。
    如果我们E:\hadoop-2.7.3\bin目录下缺少winutils.exe就会报缺少这个文件的错。就像这样:
    java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.我们需要做的就是下载一个这样的文件放在bin目录下就可以了,网上有很多,大家百度一下下载下来就可以了。如果大家遇见其他的错误的话把错误信息百度一下就可以解决了。
    现在我们运行程序就不会报错了。
    结果就像下面这样:

    好了!


    END

    相关文章

      网友评论

      本文标题:pycharm + spark 的实现

      本文链接:https://www.haomeiwen.com/subject/rrwdkftx.html