次简单的spark + notebook 解决方案(Linux&

作者: 问号Max | 来源:发表于2018-05-24 18:39 被阅读0次

次简单的spark + notebook 解决方案(Linux&
Zeppelin notebook迁移到Databricks第二
数据倾斜（五）：Spark是如何解决数据倾斜的
SPARK WITH JUPYTER NOTEBOOK
报错处理｜Internal Server Error, nbco
Module-Spark使用文档
Jupyter notebook安装及快捷操作
Spark Notebook（IPython with Spar
pyspark学习笔记（一）
每周阅读（9/12/2016）

Tips: 如果依旧觉得复杂，没耐心看，直接看另一解决方案，在参考资料的第一个链接，没有比这更简单的方法了！！当然前提是你至少要下个spark，并解压。

前期准备

1、安装spark

2、安装库findspark (e.g. pip3/pip install findspark)

第一步：设置SPARK_HOME

在命令行中输入vim ~/.bash_profile，加入如下字段：

export SPARK_HOME = /Users/Max/Apps/spark-2.2.1-bin-hadoop2.7

‘=’ 后面填的是安装spark的路径

第二步：连接pyspark

主要命令如下：

1、在命令行输入 jupyter notebook

2、建立一个python2/python3 为编译器的notebook - 用那个取决于你是在python2/3 安装了库findspark

3、在notebook中输入以下命令

3.1 import findspark

3.2 findspark.init()

3.3 import pyspark

输入完成以上命令以后，且无报错，恭喜你。notebook已经成功连上pyspark了。但是这个借助于库连接spark的方法，貌似有点投机取巧，而非传统的方法，如果有兴趣尝试传统方法的可以看看参考资料中的链接

参考资料

1、另一个快速整合spark & notebook的方案，这个应该是我目前看到最简单的方法了，只要在~/.bash_profile增加两个环境变量即可。唯一的问题是，当你想要在命令行里使用pyspark时，需要重新改写下环境变量的配置。尝试可行。https://blog.csdn.net/xiaoliuzz/article/details/78644619

2、传统方法stackoverflow上的高分答案，但是我并没有连成功https://stackoverflow.com/questions/33064031/link-spark-with-ipython-notebook/33065359#33065359

3、另一个传统方法，但是我在sbt这步出错了 https://www.dataquest.io/blog/pyspark-installation-guide/