美文网首页我爱编程
Python  Spark的安装以及遇到的一些问题的解决

Python  Spark的安装以及遇到的一些问题的解决

作者: 一个三要不起 | 来源:发表于2018-03-25 19:35 被阅读0次
    首先要安装Scala

    先下载scala-2.11.8.tgz ,安装的方法就比较老套路了:
    先是解压tar -zxvf scala-2.11.8.tgz
    然后移动sudo mv -r scala-2.11.8/ /usr/
    改名sudo mv /usr/scala-2.11.8 /usr/scala
    配置环境变量sudo vim /etc/profile加入以下内容:

    export SCALA_HOME=/usr/scala
    
    export PATH=$PATH:$SCALA_HOME/bin
    
    

    让配置生效source /etc/profile
    终端输入scala就可以进入scala了

    安装Spark

    用同样的套路安装Spark

    先是解压tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz
    然后移动sudo mv -r spark-2.2.0-bin-hadoop2.7/ /usr/
    改名sudo mv /usr/spark-2.2.0-bin-hadoop2.7 /usr/spark
    配置环境变量sudo vim /etc/profile加入以下内容:

    export SPARK_HOME=/usr/spark
    
    export PATH=$PATH:$SPARK_HOME/bin
    
    

    让配置生效source /etc/profile

    这里需要修改spark/conf/下的spark-env.sh.template文件

    先重命名mv conf/spark-env.sh.template conf /spark-env.sh
    修改vim /usr/spark/conf /spark-env.sh

    加入以下内容:

    export JAVA_HOME=/usr/java/jdk
    
    export SCALA_HOME=/usr/scala
    
    export HADOOP_HOME=/usr/hadoop
    
    export HADOOP_CONF_DIR=/usr/hadoop/etc/hadoop
    
    export SPARK_MASTER_IP=master
    
    export SPARK_WORKER_MEMORY=4g
    
    export SPARK_WORKER_CORES=2
    
    export SPARK_WORKER_INSTANCES=1
    
    

    变量说明

    • JAVA_HOME:Java安装目录
    • SCALA_HOME:Scala安装目录
    • HADOOP_HOME:hadoop安装目录
    • HADOOP_CONF_DIR:hadoop集群的配置文件的目录
    • SPARK_MASTER_IP:spark集群的Master节点的ip地址
    • SPARK_WORKER_MEMORY:每个worker节点能够最大分配给exectors的内存大小
    • SPARK_WORKER_CORES:每个worker节点所占有的CPU核数目
    • SPARK_WORKER_INSTANCES:每台机器上开启的worker节点的数目

    修改slaves文件
    vim /usr/spark/conf/slaves
    加入从机的IP地址,也可以是从机名。

    然后就可以启动Spark了:
    先启动HDFSstart-dfs.sh
    然后启动Spark,从Spark的目录下启动Spark,
    cd /usr/spark/sbin/
    ./start-all.sh
    主机和其他从机输入jps有如下显示说明启动成功了:

    那么问题来了,我学过Python但没学过scala怎么使用Spark?我们知道Spark是支持Python语言的,在spark/bin/下也可以看到有pyspark,我试着运行一下


    运行失败,没找到python命令,好吧,那么我就安装Python:
    先去Python官网下载Python的二进制源码,下好了先解压
    tar -zxvf Python-3.6.5rc1.tgz
    然后我按照老套路安装
    ./Python-3.6.5rc1/configure --prefix=/usr/python
    (/usr/python是指要把安装python的目的地址)

    然后就。。。暴露了。。。居然没有安装C编译器,作为计算机专业的我感觉很丢脸,好吧,继续安装GCC。作为Linux小白的我人为缺什么就安装什么,所以我输入了如下命令
    sudo apt-get install gcc

    可以看到由于网速体验极差,所以我放弃安装GCC了。。。然后从网上下载了GCC源码来编译也是各种问题,最后抱着试一试的心理来执行这么一段命令
    sudo apt-get install g++
    然而网速还是很慢,这时候突然灵机一动,想到这样一个命令
    sudo apt-get update
    然后再执行sudo apt-get install g++命令,果然安装成功了

    好了,现在可以继续安装Python了
    ./Python-3.6.5rc1/configure --prefix=/usr/python
    make
    make install

    然后一路顺通无阻安装成功!!!
    输入命令python3可以进入python shell,顺便求了一下1+1等于多少

    然后美滋滋的执行pyspark命令,然后还是有问题。。。

    有问题还是找百度,经过十几分钟的苦苦在寻找终于找到解决办法:
    编辑/etc/profile
    在里边添加export PYSPARK_PYTHON=python3
    使配置生效source /etc/profile
    再启动pyspark就没问题了

    希望这些能帮助到您

    参考:
    https://blog.csdn.net/weixin_36394852/article/details/76030317
    https://www.cnblogs.com/kimyeee/p/7250560.html
    https://github.com/pyenv/pyenv/wiki/Common-build-problems
    https://stackoverflow.com/questions/30279783/apache-spark-how-to-use-pyspark-with-python-3

    相关文章

      网友评论

        本文标题:Python  Spark的安装以及遇到的一些问题的解决

        本文链接:https://www.haomeiwen.com/subject/remzqftx.html