总目录:https://www.jianshu.com/p/e406a9bc93a9
Python - 子目录:https://www.jianshu.com/p/50b432cb9460
全称Python on Spark,使用spark提供的pyspark库编写spark应用。
pyspark的安装很特殊,为了保持版本一致性,需要从我们spark的安装目录中的Python目录下的lib目录中的pyspark.zip和py4j.zip两个安装包放在我们Windows环境下Python安装路径下的包文件目录中。
路径
这是从spark的软件包中展示的目录,需要把它们放在Python环境变量下的包文件目录中解压。
解压路径
因为我用的是anaconda,所以解压路径要是这个。
ok
我们来说一下这两个库的用法:
py4j:
通过py4j,Python可以动态访问java虚拟机中的java对象,java程序也可以回调Python对象。
pyspark:
spark提供的Python编写spark程序的API接口库。
然后将Linux中的Python版本设置成Python3.
安装编译相关工具
yum -y groupinstall "Development tools"
yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel
yum install libffi-devel -y
下载安装包解压
cd /usr/local
wget https://www.python.org/ftp/python/3.7.0/Python-3.7.0.tar.xz
tar -xvJf Python-3.7.0.tar.xz
编译安装
mkdir /usr/local/python3 #创建编译安装目录
cd Python-3.7.0
./configure --prefix=/usr/local/python3
make && make install
创建软连接
ln -s /usr/local/python3/bin/python3 /usr/local/bin/python3
ln -s /usr/local/python3/bin/pip3 /usr/local/bin/pip3
验证是否成功
python3 -V
pip3 -V
安装成功
示例
最后将$SPARK_HOME/python/lib/下的两个压缩包解压到Python3.7安装目录下的Lib/site-packages包文件目录下(未编译的Python文件)。
import
这样就可以引入这两个包。
然后配置pyspark的Python版本。
spark-env.sh
指定pyspark启动时使用的python版本。
他还有三个配置项:
export PYSPARK_DRIVER_PYTHON=ipython3
指定启动pyspark后的交互式界面,使用ipython3作为默认启动交互界面。
export PYSPARK_DRIVER_PYTHON=jupyter
指定启动pyspark后的交互式界面,使用jupyter作为默认启动的交互界面。
export PYSPARK_DRIVER_PYTHON_OPTS="notebook --no-browser --port 8889 --ip=192.168.110.110"
unset XDG_RUNTIME_DIR
指定ip 和port 可以让同网段的设备访问jupyter 进行pyspark 操作。
然后配置pyspark启动项。
pyspark
将版本设置为python3.
ok
网友评论