Tips: 如果依旧觉得复杂,没耐心看,直接看另一解决方案,在参考资料的第一个链接,没有比这更简单的方法了!!当然前提是你至少要下个spark,并解压。
前期准备
1、安装spark
2、安装库findspark (e.g. pip3/pip install findspark)
第一步:设置SPARK_HOME
在命令行中输入vim ~/.bash_profile,加入如下字段:
export SPARK_HOME = /Users/Max/Apps/spark-2.2.1-bin-hadoop2.7
‘=’ 后面填的是安装spark的路径
第二步:连接pyspark
主要命令如下:
1、在命令行输入 jupyter notebook
2、建立一个python2/python3 为编译器的notebook - 用那个取决于你是在python2/3 安装了库findspark
3、在notebook中输入以下命令
3.1 import findspark
3.2 findspark.init()
3.3 import pyspark
输入完成以上命令以后,且无报错,恭喜你。notebook已经成功连上pyspark了。但是这个借助于库连接spark的方法,貌似有点投机取巧,而非传统的方法,如果有兴趣尝试传统方法的可以看看参考资料中的链接
参考资料
1、另一个快速整合spark & notebook的方案,这个应该是我目前看到最简单的方法了,只要在~/.bash_profile增加两个环境变量即可。唯一的问题是,当你想要在命令行里使用pyspark时,需要重新改写下环境变量的配置。尝试可行。https://blog.csdn.net/xiaoliuzz/article/details/78644619
2、传统方法stackoverflow上的高分答案,但是我并没有连成功https://stackoverflow.com/questions/33064031/link-spark-with-ipython-notebook/33065359#33065359
3、另一个传统方法,但是我在sbt这步出错了 https://www.dataquest.io/blog/pyspark-installation-guide/
网友评论