spark基础环境搭建

作者: WANGGGGG | 来源:发表于2019-03-14 21:41 被阅读4次

CarbonData Carbon Thrift Server集
spark基础环境搭建
Spark单机环境搭建并运行单次统计
Spark On YARN 集群安装部署
Intellij之Spark Scala开发环境搭建
IntelliJ Idea 搭建spark 开发环境
史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spar
Spark Streaming实时流处理-2. Spark实战环
2018-11-12Pyspark win环境配置参考
《从0到1学习spark》-- spark初体验

Spark2.2.1基础平台搭建流程

引言：

由于公司存在自己的大数据架构，这个spark基础平台只能提供基础业务测试使用，但是鉴于它的搭建过程比较简单，流程较少，比较适合练手，和验证某些相关业务。比如说学习scala过程中想要结合实际环境测试一下，没有多余的环境可以使用，那就可以自己搭建一个简单的环境临时使用。

一、准备工作：

（1）下载工具包：

scala-2.12.4.tgz

spark-2.2.1-bin-hadoop2.7.tgz

jdk-8u151-linux-x64.tar.gz

hadoop-3.0.0.tar.gz

CentOS-7-x86_64-DVD-1511.iso

VMware-workstation-full-14.0.0.24051.exe

（2）安装环境：

windows10-64

内存16G以上（太小了印象程序运行）

二、安装步骤：

步骤一：安装软件

安装VMware-workstation之后创建三个虚拟机，再安装centos7，每一个虚拟机的安装都采用一样的配置。

步骤二：配置ip

三个虚拟机在安装的时候采用自动配置ip的方式就行了，这里我的三个服务器的ip为

192.168.164.128sparkmaster

192.168.164.129sparkslave1

192.168.164.130sparkslave2

在host文件配置情况，设置好之后保存退出

最后关闭防火墙 systemctl stop firewalld.service #停止firewall

systemctl disable firewalld.service #

禁止firewall开机启动

三台虚拟机中都需要执行

步骤三：配置免密登录

配置三台虚拟机之间ssh免密登录，执行以下指令。

ssh-keygen -t rsa

cd .ssh/

cp id_rsa.pub authorized_keys

把三个虚拟机中的authorized_keys进行合并，然后用合并后的authorized_keys替代原来的authorized_keys文件。测试三台虚拟机之间能否进行免密登录，如果可行，则进行下一步。

步骤四：解压各个安装包

安装jdk，直接把下载好的jdk压缩包在合适的位置进行解压。

安装hadoop，直接把下载好的hadoop压缩包进行解压

安装scala，直接把下载好的scala压缩包进行解压

安装spark，直接把下载好的spark压缩包进行解压

三台虚拟机中进行一样的操作

步骤五：配置环境变量

在/etc/profile文件的末尾添加以下信息，保存退出。

测试各个组件环境变量是否配置成功，可以用各个组件的version指令，进行测试，如jdk，会出现如下信息

步骤六：修改hadoop-env.sh文件

在文件末尾增加jdk路径和hadoop路径，保存退出

vim/usr/local/hadoop/hadoop-3.0.0/etc/hadoop/hadoop-env.sh

步骤七：修改hdfs-site.xml

vim/usr/local/hadoop/hadoop-3.0.0/etc/hadoop/hdfs-site.xml

步骤八：修改mapred-site.xml

vim/usr/local/hadoop/hadoop-3.0.0/etc/hadoop/mapred-site.xml

步骤九：在workers中增加主机名

步骤十：修改yarn-site.xml

注意：如果不配置hostname会提示找不到master

步骤十一：在core-site.xml中增加新的主机地址

步骤十二：格式化namenode

Hadoop namenode –format

执行成功后会有格式化成功的提示

步骤十三：启动

因为我们需要的spark环境，因此只需要启动hadoop的hdfs，然后启动spark的管理

start-dfs.env.sh

再在spark的具体目录下启动start-all.env.sh以免和hadoop的启动混淆。

启动完成之后查看master中的jps进程

查看slave的进程

在浏览器中输入ip和端口号http://192.168.164.131:8080/查看当前服务运行情况

服务一切运行正常。。

本文原文在我的个人小站中 http://www.canfeng.xyz/blog/article?slug=zhdlTIBi

网友评论

本文标题：spark基础环境搭建

本文链接：https://www.haomeiwen.com/subject/utagfftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

spark基础环境搭建

Spark2.2.1基础平台搭建流程

引言：

一、准备工作：

二、安装步骤：

步骤一：安装软件

步骤二：配置ip

步骤三：配置免密登录

步骤四：解压各个安装包

步骤五：配置环境变量

步骤六：修改hadoop-env.sh文件

步骤七：修改hdfs-site.xml

步骤八：修改mapred-site.xml

步骤九：在workers中增加主机名

步骤十：修改yarn-site.xml

步骤十一：在core-site.xml中增加新的主机地址

步骤十二：格式化namenode

步骤十三：启动

相关文章

CarbonData Carbon Thrift Server集

spark基础环境搭建

Spark单机环境搭建并运行单次统计

Spark On YARN 集群安装部署

Intellij之Spark Scala开发环境搭建

IntelliJ Idea 搭建spark 开发环境

史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spar

Spark Streaming实时流处理-2. Spark实战环

2018-11-12Pyspark win环境配置参考

《从0到1学习spark》-- spark初体验

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据

Java 杂谈

阿里云