本文使用的是Spark和python结合Spark的API组件pyspark
安装Spark之前确保已有JDK环境和python环境(本文为JDK1.8.0_60和python3.6.5)
Spark安装
1.官网下载spark
本文下载版本是spark-2.3.0-bin-hadoop2.7.tgz
2.安装spark到/usr/local/
terminal中定位到spark-2.3.0-bin-hadoop2.7.tgz目录,移动spark-2.3.0-bin-hadoop2.7.tgz到/usr/local
rm spark-2.3.0-bin-hadoop2.7.tgz /usr/local
解压缩spark-2.3.0-bin-hadoop2.7.tgz
tar -zvxf spark-2.3.0-bin-hadoop2.7.tgz(若要改名,再添加一个变量为你想改动的名字,本文未改动)
3.安装pyspark(本文使用python3,且mac自带python 2.7)
pip3 install pyspark
4.设置环境变量
打开~/.bash_profile
vim ~/.bash_profile
添加
export SPARK_HOME=/usr/local/spark-2.3.0-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin
使环境变量生效
source ~/.bash_profile
5.在terminal中输入
pyspark
就会出现如下界面了
pyspark交互界面
此时,Spark和pyspark都安装好了
结合Jupyter使用和python版本的冲突请戳此处
转载请注明出处
网友评论