pycharm + spark 的实现

作者: 盗梦者_56f2 | 来源:发表于2018-04-15 16:34 被阅读119次

pycharm + spark 的实现
记-Spark-Mac下用Pycharm搭建Spark开发环境
mac上PyCharm集成pyspark、redis、geoha
idea + spark的实现
云计算D11
安卓号外公众号
Spark相关文章索引（5）
windows pycharm spark
windows 上搭建pyspark环境，并使用pyspark连
2020-10-21

这篇博客主要介绍了在window上(类unix上也是可行的)实现在pycharm上编写spark脚本。在Windows上跑主要是为了测试，脚本没问题了，我们就需要把脚本上传到spark集群上并提交(spark-submit)运行。

0. 下载

0.0. 下载pycharm：大家去官网下载一个社区版(free)的就好了。不差钱的也可以用付费版的。网址是:https://www.jetbrains.com/pycharm/download/#section=windows
有Windows、Mac、Linux可供选择。
0.1. 下载spark：同样去官网下载一个spark压缩包就好了，当然是要和你将来要提交job的spark集群上是同一个版本。网址是：http://spark.apache.org/downloads.html
0.2. 下载hadoop：大家去下载一个hadoop压缩包，版本要和spark上要求的hadoop版本一致，2.7.x版本就可以了。网址是：http://mirror.bit.edu.cn/apache/hadoop/common/

1. 安装和配置pycharm

1.1. 安装pycharm就不说了，很简单。
1.2. 配置pycharm：
1.2.1. 首先我们把pyspark文件夹复制到site-packages文件夹下。
我的pyspark文件夹路径：E:\spark-2.2.1-bin-hadoop2.7\python
我的site-packages文件夹路径：E:\Python\Lib\site-packages
1.2.2. 我们创建python脚本文件，比如pi.py，我们可以把E:\spark-2.2.1-bin-hadoop2.7\examples\src\main\python路径下pi.py程序复制到我们刚才创建的pi.py脚本。这时候如果你运行程序的话会出现找不到SPARK_HOME的错误。
1.2.3. 点击右上角的倒三角并点击Edit Configration会出现下面的页面：

第一步：我们选择脚本路径
第二步：就是配置我们的SPARK_HOME和HADOOP_HOME路径了。

之后点击apply和OK就算是配置完了。
如果我们E:\hadoop-2.7.3\bin目录下缺少winutils.exe就会报缺少这个文件的错。就像这样：
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.我们需要做的就是下载一个这样的文件放在bin目录下就可以了，网上有很多，大家百度一下下载下来就可以了。如果大家遇见其他的错误的话把错误信息百度一下就可以解决了。
现在我们运行程序就不会报错了。
结果就像下面这样：