PySpark安装+Jupyter Notebook配置（Ubu

作者: ColleenKuang | 来源:发表于2018-09-05 17:19 被阅读192次

PySpark安装+Jupyter Notebook配置（Ubu
Jupyter配置教程
Beautiful, Idiomatic Python (一)
jupyter notebook+Spark配置远程登录服务器
Pycharm安装并配置jupyter notebook
服务器上搭建Jupyter Notebook服务
nginx反向代理Jupyter notebook
Jupyter Notebook
jupyter notebook 链接linux与windows
玩转 Jupyter Notebook （CentOS）

学校一门Big Data Computing需要学习Spark in Python。
这篇文章记录一下安装PySpark和Jupyter Notebook上运行Spark的步骤。

Prerequisite

我的系统是：Ubuntu 18.06 LTS

已经装好了python2和3(如果没有可以看看这个链接)
装好了jupyter notebook，没有的话自行google吧
装了Java 8或更高版本的Java(没有，也可以看看这个链接)

PySpark Installation Steps

1.去Spark downloads page.选择最新的Spark Release包(a prebuilt package for Hadoop), 然后直接下载。我现在的版本是Spark 2.3.1 (Jun 08 2018)。

去到下载文件夹，将文件移到home目录下并解压

$ cd Downloads
$ mv spark-2.3.1-bin-hadoop2.7.tgz ~/
$ tar -zxf spark-2.3.1-bin-hadoop2.7.tgz

3.声明一下环境变量

$ sudo vim ~/.bashrc

在文件尾部添加

export SPARK_HOME=/home/usrname/spark-2.3.1-bin-hadoop2.7
export PATH=$PATH:/home/username/spark-2.3.1-bin-hadoop2.7/bin
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
export PATH=$SPARK_HOME/python:$PATH

重新运行一下刚刚修改的初始化文件

$ source ~/.bashrc

安装成功的话，输入pyspark

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.3.1
      /_/

Using Python version 2.7.15rc1 (default, Apr 15 2018 21:51:34)
SparkSession available as 'spark'.

我看到StackOverflow上面说，现在也可以直接运行pip install pystark来安装，但是貌似没有特别好去配置你的环境变量.我的同学是用PyPI方法装的，现在开学第一周，也没瞧出什么区别，问了TA跟我说只要不影响你写project，什么安装方法都行。（吐槽一下：这什么鬼回答....）

PySpark in Jupyter

在Jupyter Notebook里运行PySpark有两种方法：

配置PySpark driver，当运行pyspark命令就直接自动打开一个Jupyter Notebook
正常启动Jupyter Notebook，然后用findSpark的package(我选了这种)

方法一：配置PySpark driver

去~/.bashrc文件最后，添加配置PySpark driver的环境变量

export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'

同样，运行一下刚刚修改的初始化文件

$ source ~/.bashrc

最后，重启terminal

$ pyspark

这个时候，就会自动打开Jupyter Notebook。

方法二：用findSpark包

安装findspark：

$ pip install findspark

启动jupyter notebook

$ jupyter notebook

Jupyter Notebook运行效果

附上代码，大家运行感受一下：

#方法2需要复制这三行
import findspark
findspark.init()
import pyspark

#方法1直接从这里开始复制
import random
sc = pyspark.SparkContext(appName="Pi")
num_samples = 100000000
def inside(p):     
  x, y = random.random(), random.random()
  return x*x + y*y < 1
count = sc.parallelize(range(0, num_samples)).filter(inside).count()
pi = 4 * count / num_samples
print(pi)
sc.stop()

Output：

实测，Python3的运行速度会比Python2的快很多，我不知道为什么我们TA跟我说用“Python 2 is better。”

常见问题（不断更新）

1.Python使用spark时出現版本不同的错误

import os
#for python 3
os.environ["PYSPARK_PYTHON"]="/usr/bin/python3"
#for python 2
os.environ["PYSPARK_PYTHON"]="/usr/bin/python"

我的电脑上的python的路径是/usr/bin/python，你可以运行where pythoncheck一下你的Python2的安装路径

参考链接

Get Started with PySpark and Jupyter Notebook in 3 Minutes

网友评论

2010jing:不应该，3是大方向
ColleenKuang:@2010jing 噢噢我以为你说我哪个第三点有问题我也不懂为什么用2 以防万一我两个版本都装了
2010jing:@ColleenKuang 再过两年py2就不维护了
ColleenKuang:@2010jing ( ・◇・)?啥没看懂

机器学习

本文标题：PySpark安装+Jupyter Notebook配置（Ubu

本文链接：https://www.haomeiwen.com/subject/qvnawftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！