测试环境
1.CM和CDH版本为5.11.2,Spark On Yarn模式
2.基于Anaconda部署Python3
下载anaconda包,3.4.2版本的Anaconda和3.5.2的python,下载地址:https://repo.continuum.io/archive/Anaconda3-4.2.0-Linux-x86_64.sh
版本需要注意的是PySpark does not work with Python 3.6.0,SPARK-19019
https://issues.apache.org/jira/browse/SPARK-19019
安装:sh /server/Anaconda3-4.2.0-Linux-x86_64.sh,一直默认即可,注意选择自己的安装目录,最好写path路径时候,no
因为我们要配置全局的路径
echo "export PATH=/server/anaconda3/bin:$PATH">>/etc/profile
source /etc/profile
当前这个操作不需要安装也可以:使用conda创建python3环境并激活,conda create --unknown --offline -n py3 python=3.5
(注意:这里创建python3环境时使用了离线模式,即--offline参数,以及—unknown,这种方式适合安装没有依赖的python包,如果有依赖使用conda install会报错,需要搭建一个内部仓库。)
进入python35环境:source activate python35
在CM配置Python环境变量
测试:
进入spark2安装目录:cd /server/opt/cloudera/parcels/SPARK2/bin
root用户,执行命令./pyspark2, 会报错说 Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x
解决办法:
1.切换到hdfs用户
2.修hdfs目录/user的权限 hdfs dfs -chmod 777 /user
网友评论