美文网首页
次简单的spark + notebook 解决方案(Linux&

次简单的spark + notebook 解决方案(Linux&

作者: 问号Max | 来源:发表于2018-05-24 18:39 被阅读0次

    Tips: 如果依旧觉得复杂,没耐心看,直接看另一解决方案,在参考资料的第一个链接,没有比这更简单的方法了!!当然前提是你至少要下个spark,并解压。

    前期准备

    1、安装spark

    2、安装库findspark    (e.g. pip3/pip install findspark)

    第一步:设置SPARK_HOME

    在命令行中输入vim ~/.bash_profile,加入如下字段:

    export SPARK_HOME = /Users/Max/Apps/spark-2.2.1-bin-hadoop2.7 

    ‘=’ 后面填的是安装spark的路径

    第二步:连接pyspark

    主要命令如下:

    1、在命令行输入 jupyter notebook 

    2、建立一个python2/python3 为编译器的notebook - 用那个取决于你是在python2/3 安装了库findspark

    3、在notebook中输入以下命令

    3.1 import findspark

    3.2 findspark.init()

    3.3 import pyspark

    输入完成以上命令以后,且无报错,恭喜你。notebook已经成功连上pyspark了。但是这个借助于库连接spark的方法,貌似有点投机取巧,而非传统的方法,如果有兴趣尝试传统方法的可以看看参考资料中的链接

    参考资料

    1、另一个快速整合spark & notebook的方案,这个应该是我目前看到最简单的方法了,只要在~/.bash_profile增加两个环境变量即可。唯一的问题是,当你想要在命令行里使用pyspark时,需要重新改写下环境变量的配置。尝试可行。https://blog.csdn.net/xiaoliuzz/article/details/78644619

    2、传统方法stackoverflow上的高分答案,但是我并没有连成功https://stackoverflow.com/questions/33064031/link-spark-with-ipython-notebook/33065359#33065359 

    3、另一个传统方法,但是我在sbt这步出错了                  https://www.dataquest.io/blog/pyspark-installation-guide/

    相关文章

      网友评论

          本文标题:次简单的spark + notebook 解决方案(Linux&

          本文链接:https://www.haomeiwen.com/subject/rrasjftx.html