在mac上搭建spark+ipython环境

作者: 神探佳妮妮 | 来源:发表于2017-02-08 12:01 被阅读0次

    Big Data computing 下课之后回去试着搭建了一下spark环境,在这里记录安装过程中遇到的坑及解决方法和一些待解决的问题。

    mac上的python环境:Anaconda for python 2.7。(原来我用的Anaconda for python3.6,但是在用pyspark的过程中会遇到一个不能解决的bug,所以又重新装了python2.7)

    下面是我的配置过程,黑色加粗字体是要在terminal中敲的命令

    1. 在spark官网上下载spark文件包

    2. 打开terminal

    3. 打开下载的spark所在的路径

    cd downloads

    4. 解压压缩包

    tar -zxvf spark-2.1.0-bin-hadoop2.7.tar

    5. 把解压后的文件移动到home路径下

    mv spark-2.1.0-bin-hadoop2.7/~/spark-2.1.0

    6. 设置环境变量

    nano .bash_profile

    o  在bash profile 里添加下面两句

    export SPARK_PATH=~/spark-2.1.0

    export PATH=$SPARK_PATH/bin:$PATH

    保存并推出 (command+x)

    7. 环境变量会在你下次打开terminal时自动生效,如果想立刻生效,用下面的source命令

    source .bash_profile

    8.键入pyspark看看是不是成功

    pyspark

    ## 以上这些步骤如果是python3.6环境中会报TypeError: namedtuple() missing 3 required keyword-only arguments: 'verbose', 'rename', and 'module'

    ## 有人在github上提出了这个问题,不过我没有看懂是如何解决的。github上关于pyspark+python3.6

    9. 如果想在ipython notebook中使用pyspark,在第六步中bash_profile文件中追加下面三行: 

    export PYSPARK_DRIVER_PYTHON="ipython"

    export PYSPARK_DRIVER_PYTHON_OPTS="notebook"

    alias snotebook='$SPARK_PATH/bin/pyspark --masterlocal[2]'

    10. source .bash_profile

    11. 在terminal中键入pyspark或者snotebook。snotebook 是别名,可以在第九步设置环境变量的过程中任意命名。Local[2] 表示我们为它分配了两个核。

    12.打开了ipython notebook之后可以尝试下面命令看看spark配置是否成功

    sc.parallelize(range(100),8).take(5)

    相关文章

      网友评论

        本文标题:在mac上搭建spark+ipython环境

        本文链接:https://www.haomeiwen.com/subject/mquvittx.html