ubuntu docker saprk单机集群搭建

作者: 高威 | 来源:发表于2017-10-13 23:41 被阅读0次

1，制作ssh基础镜像：

已制作好，地址：https://dev.aliyun.com/detail.html?spm=5176.1972343.2.4.J1rQiF&repoId=78586

2，制作单机镜像：

在ubuntu_sshd基础之上

引用地址：http://blog.csdn.net/u010171031/article/details/51849562

在安装Spark之前，我们需要在自己的系统当中先安装上jdk和scala

可以去相应的官网上下载：

JDK：http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

scala：http://www.scala-lang.org/download/

下载完成后可以得到这样两个压缩包

安装JDK

首先我们先来安装jdk,

sudomkdir /usr/lib/jdk

用这条语句来创建jdk的安装目录，这里我们计划装到/usr/lib/jdk目录下，

然后切换到jdk压缩包所在的目录，比如这里我们把包放在了~/Desktop目录下

cd~/Desktop

执行解压缩命令，把压缩包解压缩到/usr/lib/jdk目录下

sudo tar-zxvfjdk-8u91-linux-x64.tar.gz-C/usr/lib/jdk

注意这里需要root权限。不然没有办法往/usr/lib/jdk目录中写数据

然后我们需要配置PATH路径，让jdk命令在任何路径下都能够直接执行

sudovim /etc/profile

打开配置文件，有些教程会让你编辑自己目录下的~/.bashrc文件，.bashrc文件的改动只会对当前用户产生作用，而/etc/profile的改动在重启之后会对所有用户都起作用

在配置文件的最后加上

exportJAVA_HOME=/usr/lib/jdk/jdk1.8.0_91exportJRE_HOME=${JAVA_HOME}/jreexportCLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libexportPATH=${JAVA_HOME}/bin:$PATH

JAVA_HOME的路径根据自己解压缩的目录来配置。

然后推出vim，如果你不会用vim，可以在所有命令中出现vim的地方用gedit来代替，下面也是一样。

source/etc/profile

当前终端重新载入/etc/profile配置文件，然后执行一下

java

如果出现一大串东西，那么恭喜你你的jdk安装成功了，否则很有可能你的环境配置出了问题，请仔细检查。

安装scala

接着我们需要安装scala具体的安装过程和jdk很像，

首先也是创建安装目录

sudomkdir /usr/lib/scala

然后是将压缩包解压缩

sudo tar-zxvfscala-2.11.8.tgz-C/usr/lib/scala

最后打开/etc/profile,在最后添加配置

exportSCALA_HOME=/usr/lib/scala/scala-2.11.8exportPATH=${SCALA_HOME}/bin:$PATH

退出后，进行source /etc/profile

然后执行scala，出现如下界面说明安装成功

可以在这里输入

：quit

退出scala

安装spark

安装完了上面这些之后我们需要安装今天的主角Spark了，首先去官网下载我们需要的包

http://spark.apache.org/downloads.html

这个是它的下载地址，需要注意的是，我们在Choose a package type:这里选择的是Pre-Build for Hadoop2.6

然后点击下面的Download Spark链接开始下载。

完成后

会出现这个文件

同样我们需要给spark一个安装目录

sudomkdir /usr/lib/spark

解压缩文件

sudo tar-zxvfspark-1.6.1-bin-hadoop2.6.tgz-C/usr/lib/spark

在/etc/profile中配置

exportSPARK_HOME=/usr/lib/spark/spark-1.6.1-bin-hadoop2.6exportPATH=${SPARK_HOME}/bin:$PATH

source /etc/profile

之后，执行

pyspark

出现这个就说明安装已经完成，你可以在这里输入相应的python代码来执行操作。

python中使用pyspark

当然了,我们在之后的开发过程中，不可能说只在这么一个解释器中开发，所以接下来我们要做的是让python能够加载spark的库。

所以我们需要把pyspark添加到python的寻找目录当中，同样我们需要编辑/etc/profile文件，在最后添上

exportPYTHONPATH=/usr/lib/spark/spark-1.6.1-bin-hadoop2.6/python:/usr/bin/python

这样就把spark目录下的python库添加到了python的找寻目录中

但是由于python需要去调用java的库所以在/usr/lib/spark/spark-1.6.1-bin-hadoop2.6/python路径下我们需要添加一个py4j的文件夹，这个文件可以在/usr/lib/spark/spark-1.6.1-bin-hadoop2.6/python/lib目录下找到，在这个目录下有一个py4j-0.9-src.zip的压缩包，把他解压缩放到

/usr/lib/spark/spark-1.6.1-bin-hadoop2.6/python/目录下就可以了

当然这个操作需要在root权限下进行

这个时候在任意目录下输入python

然后在这里输入

importpyspark

查看是否可以正确导入pyspark，如果没有出现任何提示，就说明pyspark能够正常导入。

这样就可以在任何地方编写.py文件，需要用到pyspark的地方用import导入即可。

3，配置集群：

笔者已制作好的spark镜像：

docker pull registry.cn-hangzhou.aliyuncs.com/ggww_docker/ubuntu_spark

master配置：

master和slave的配置相同

spark-env.sh

只配置master的

slaves

启动：

查看管理页面：

至此，运行成功

后面给予yarn的再续。。

网友评论

本文标题：ubuntu docker saprk单机集群搭建

本文链接：https://www.haomeiwen.com/subject/hnwtuxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

ubuntu docker saprk单机集群搭建

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读