这篇博客主要介绍了在window上(类unix上也是可行的)实现在pycharm上编写spark脚本。在Windows上跑主要是为了测试,脚本没问题了,我们就需要把脚本上传到spark集群上并提交(spark-submit
)运行。
0. 下载
0.0. 下载pycharm:大家去官网下载一个社区版(free)的就好了。不差钱的也可以用付费版的。网址是:https://www.jetbrains.com/pycharm/download/#section=windows
有Windows、Mac、Linux可供选择。
0.1. 下载spark:同样去官网下载一个spark压缩包就好了,当然是要和你将来要提交job的spark集群上是同一个版本。网址是:http://spark.apache.org/downloads.html
0.2. 下载hadoop:大家去下载一个hadoop压缩包,版本要和spark上要求的hadoop版本一致,2.7.x版本就可以了。网址是:http://mirror.bit.edu.cn/apache/hadoop/common/
1. 安装和配置pycharm
1.1. 安装pycharm就不说了,很简单。
1.2. 配置pycharm:
1.2.1. 首先我们把pyspark文件夹复制到site-packages文件夹下。
我的pyspark文件夹路径:E:\spark-2.2.1-bin-hadoop2.7\python
我的site-packages文件夹路径:E:\Python\Lib\site-packages
1.2.2. 我们创建python脚本文件,比如pi.py,我们可以把E:\spark-2.2.1-bin-hadoop2.7\examples\src\main\python路径下pi.py程序复制到我们刚才创建的pi.py脚本。这时候如果你运行程序的话会出现找不到SPARK_HOME的错误。
1.2.3. 点击右上角的倒三角并点击Edit Configration会出现下面的页面:
第一步:我们选择脚本路径
第二步:就是配置我们的SPARK_HOME和HADOOP_HOME路径了。
之后点击apply和OK就算是配置完了。
如果我们E:\hadoop-2.7.3\bin目录下缺少winutils.exe就会报缺少这个文件的错。就像这样:
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
我们需要做的就是下载一个这样的文件放在bin目录下就可以了,网上有很多,大家百度一下下载下来就可以了。如果大家遇见其他的错误的话把错误信息百度一下就可以解决了。现在我们运行程序就不会报错了。
结果就像下面这样:
好了!
END
网友评论