当时学Scala没怎么学好,先入为主,所以平时用python 写的比较多点,刚接触的小白失去觉得好难啊,想着我把我的过程总结下来,平时长看看比较好,每个人的情况都不同,但,,反正参考参考吧。
前提:配置好python ,Hadoop (win10),安装好pycharm.
spark1. 下载-解压。首先下载spark,可以去官网去下,我这里是spark 2.2.0版本。然后解压到相应文件夹下
2. 复制-粘贴。将spark目录下的 ---> python目录下的 --> pyspark文件夹 复制粘贴到 python目录下的 -- >lib 目录下的 --> site-packges里面;
3. 在C:/Users/Administrator/下创建pip文件夹,在里面新建pip.ini,内容添加:
[global]
trusted-host=mirrors.aliyun.com
index-url=http://mirrors.aliyun.com/pypi/simple/
4. pip安装:pip install py4j ipython
5. 新建项目。在pycharm --->run -->edit configuration -->设置路径
PYTHONPATH F :\spark文件路径\python 和 SPARK_HOME F:\spark路径
注意:有时候打开edit configuration 里面没有文件,特别是新建完项目的时候。这时要跑一下py文件,然后再打开就有内容了。
6.spark\bin下更改pyspark2.cmd文件。第二十八行改为:
set PYSPARK_DRIVER_PYTHON=ipython
网友评论