Python Spark的安装以及遇到的一些问题的解决

作者: 一个三要不起 | 来源:发表于2018-03-25 19:35 被阅读0次

首先要安装Scala

先下载scala-2.11.8.tgz ，安装的方法就比较老套路了：
先是解压tar -zxvf scala-2.11.8.tgz
然后移动sudo mv -r scala-2.11.8/ /usr/
改名sudo mv /usr/scala-2.11.8 /usr/scala
配置环境变量sudo vim /etc/profile加入以下内容:

export SCALA_HOME=/usr/scala

export PATH=$PATH:$SCALA_HOME/bin

让配置生效source /etc/profile
终端输入scala就可以进入scala了

安装Spark

用同样的套路安装Spark

先是解压tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz
然后移动sudo mv -r spark-2.2.0-bin-hadoop2.7/ /usr/
改名sudo mv /usr/spark-2.2.0-bin-hadoop2.7 /usr/spark
配置环境变量sudo vim /etc/profile加入以下内容:

export SPARK_HOME=/usr/spark

export PATH=$PATH:$SPARK_HOME/bin

让配置生效source /etc/profile

这里需要修改spark/conf/下的spark-env.sh.template文件

先重命名mv conf/spark-env.sh.template conf /spark-env.sh
修改vim /usr/spark/conf /spark-env.sh

加入以下内容：

export JAVA_HOME=/usr/java/jdk

export SCALA_HOME=/usr/scala

export HADOOP_HOME=/usr/hadoop

export HADOOP_CONF_DIR=/usr/hadoop/etc/hadoop

export SPARK_MASTER_IP=master

export SPARK_WORKER_MEMORY=4g

export SPARK_WORKER_CORES=2

export SPARK_WORKER_INSTANCES=1

变量说明

JAVA_HOME：Java安装目录
SCALA_HOME：Scala安装目录
HADOOP_HOME：hadoop安装目录
HADOOP_CONF_DIR：hadoop集群的配置文件的目录
SPARK_MASTER_IP：spark集群的Master节点的ip地址
SPARK_WORKER_MEMORY：每个worker节点能够最大分配给exectors的内存大小
SPARK_WORKER_CORES：每个worker节点所占有的CPU核数目
SPARK_WORKER_INSTANCES：每台机器上开启的worker节点的数目

修改slaves文件
vim /usr/spark/conf/slaves
加入从机的IP地址，也可以是从机名。

然后就可以启动Spark了：
先启动HDFSstart-dfs.sh
然后启动Spark，从Spark的目录下启动Spark，
cd /usr/spark/sbin/
./start-all.sh
主机和其他从机输入jps有如下显示说明启动成功了：

那么问题来了，我学过Python但没学过scala怎么使用Spark？我们知道Spark是支持Python语言的，在spark/bin/下也可以看到有pyspark，我试着运行一下

运行失败，没找到python命令，好吧，那么我就安装Python：
先去Python官网下载Python的二进制源码，下好了先解压
tar -zxvf Python-3.6.5rc1.tgz
然后我按照老套路安装
./Python-3.6.5rc1/configure --prefix=/usr/python
(/usr/python是指要把安装python的目的地址)

然后就。。。暴露了。。。居然没有安装C编译器，作为计算机专业的我感觉很丢脸，好吧，继续安装GCC。作为Linux小白的我人为缺什么就安装什么，所以我输入了如下命令
sudo apt-get install gcc

可以看到由于网速体验极差，所以我放弃安装GCC了。。。然后从网上下载了GCC源码来编译也是各种问题，最后抱着试一试的心理来执行这么一段命令
sudo apt-get install g++
然而网速还是很慢，这时候突然灵机一动，想到这样一个命令
sudo apt-get update
然后再执行sudo apt-get install g++命令，果然安装成功了

好了，现在可以继续安装Python了
./Python-3.6.5rc1/configure --prefix=/usr/python
make
make install

然后一路顺通无阻安装成功！！！
输入命令python3可以进入python shell，顺便求了一下1+1等于多少

然后美滋滋的执行pyspark命令，然后还是有问题。。。

有问题还是找百度，经过十几分钟的苦苦在寻找终于找到解决办法：
编辑/etc/profile
在里边添加export PYSPARK_PYTHON=python3
使配置生效source /etc/profile
再启动pyspark就没问题了

希望这些能帮助到您

参考：
https://blog.csdn.net/weixin_36394852/article/details/76030317
https://www.cnblogs.com/kimyeee/p/7250560.html
https://github.com/pyenv/pyenv/wiki/Common-build-problems
https://stackoverflow.com/questions/30279783/apache-spark-how-to-use-pyspark-with-python-3

网友评论

我爱编程

本文标题：Python Spark的安装以及遇到的一些问题的解决

本文链接：https://www.haomeiwen.com/subject/remzqftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Python Spark的安装以及遇到的一些问题的解决

首先要安装Scala

安装Spark

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

我爱编程