1、虚拟机安装
首先需要在windows上安装vmware和ubuntu虚拟机,这里就不多说了
vmware下载地址:直接百度搜索,使用百度提供的链接下载,这里附上一个破解码
5A02H-AU243-TZJ49-GTC7K-3C61N
ubuntu下载地址:http://cdimage.ubuntu.com/daily-live/current/
一路安装下去,我一共装了4台虚拟机,三台用于构建集群,一台用于爬虫,如图所示:
![](https://img.haomeiwen.com/i4155986/7001d6554357be8f.png)
2、虚拟机网络配置
这里,我们以slave2为例来说明一下虚拟机的网络配置:
首先,将虚拟机的网络设置设置为自定义,选择VMnet8:
![](https://img.haomeiwen.com/i4155986/529e1c648fdc909c.png)
随后,我们点击VMWARE上的编辑-虚拟网络编辑-右下角的更改设置,应该有三个连接方式,这里我们把其他两个移除,只剩下VMnet8:
![](https://img.haomeiwen.com/i4155986/c121816c225faa16.png)
随后,点击NAT设置,我们可以发现网关是192.168.75.2
![](https://img.haomeiwen.com/i4155986/3121a0053fc2f36e.png)
接下来,我们要设置虚拟机的ip:点击右上角的edit connectinos,设置Ipv4,如下图所示:
![](https://img.haomeiwen.com/i4155986/fa11a9ab78fb6075.png)
随后修改两个文件:
修改interfaces文件
命令:sudo vim /etc/network/interfaces ( 如果没有vim命令,使用sudo apt-get install vim进行安装):
![](https://img.haomeiwen.com/i4155986/2fa0a1bffa7c559c.png)
修改resolv.conf文件
命令:sudo vim /etc/resolv.conf:
![](https://img.haomeiwen.com/i4155986/0917e80e80e0c864.png)
接下来重启我们的网络就可以啦:
命令:sudo /etc/init.d/networking restart(如果启动失败,重启虚拟机即可)
![](https://img.haomeiwen.com/i4155986/5c08de1712f17bda.png)
查看我们的ip,使用ifconfig命令,如果没有安装(使用sudo apt install net-tools 进行安装):
![](https://img.haomeiwen.com/i4155986/bd7911fc9dc50c22.png)
3、使用xshell连接本地虚拟机(非必须)
下载xshell,百度搜索xshell,使用百度提供的下载地址即可。
要想使用xshell的ssh方式访问虚拟机,首先要在虚拟机上安装ssh服务
使用命令:sudo apt-get install openssh-server
随后启动ssh服务:sudo /etc/init.d ssh start
再次点击VMWARE上的编辑-虚拟网络编辑-右下角的更改设置,设置端口转发:
![](https://img.haomeiwen.com/i4155986/e14295b5e0beb001.png)
随后打开xshell,新建连接:
![](https://img.haomeiwen.com/i4155986/25444f748a716cf9.png)
设置用户名和密码:
![](https://img.haomeiwen.com/i4155986/36d60763a2d6c833.png)
随后点击连接即可,发现连接成功!
![](https://img.haomeiwen.com/i4155986/40359e80f46f107f.png)
4、修改虚拟机主机名以及hosts文件
这里以修改主节点主机名称为例,其他节点类似。
使用命令 : sudo vim /etc/hostname 查看当前主机名,并修改为master:
![](https://img.haomeiwen.com/i4155986/5aeea91866951397.png)
重启之后生效:
![](https://img.haomeiwen.com/i4155986/0d93cc3d5da5e015.png)
两个从节点的主机依次修改为slave1,slave2
接下来,将主节点和两个从节点的ip和主机名添加到hosts文件中,使用命令
sudo vim /etc/hosts
修改的结果为:
![](https://img.haomeiwen.com/i4155986/e70ed17a2eba6fea.png)
两个从节点的hosts文件修改为同样的结果,此时发现各虚拟机之间可以ping通。
![](https://img.haomeiwen.com/i4155986/ca0dcb47341bc145.png)
5、配置SSH免验证登录
接下来,需要让主节点可以免验证的登录到从节点,从而在进行任务调度时可以畅通无阻。
首先要在各个节点上生成公钥和私钥文件,这里以slave1节点进行讲解,其他节点操作方式完全相同。
我们首先要开启ssh服务,使用命令:sudo /etc/init.d/ssh start
![](https://img.haomeiwen.com/i4155986/2f10de487b9cff83.png)
随后使用如下命令生成公钥和私钥文件:
ssh-keygen -t rsa -P ""
![](https://img.haomeiwen.com/i4155986/795fb5f6b35e82f2.png)
在所有节点上生成秘钥文件之后,我们需要将从节点的公钥传输给主节点,使用命令:
cd ~/.ssh
scp id_rsa.pub sxw@master:~/.ssh/id_rsa.pub.slave1
![](https://img.haomeiwen.com/i4155986/65a5dd5e4278dc3f.png)
随后,在主节点下,将所有的公钥信息拷贝到authorized_keys文件下:
使用命令:
cd ~/.ssh
cat id_rsa.pub >> authorized_keys
cat id_rsa.pub.slave1 >> authorized_keys
cat id_rsa.pub.slave2 >> authorized_keys
![](https://img.haomeiwen.com/i4155986/07d80b87bcd3401e.png)
接下来将authorized_keys文件复制到slave1和slave2节点目录下:
scp authorized_keys sxw@slave1:~/.ssh/authorized_keys
scp authorized_keys sxw@slave2:~/.ssh/authorized_keys
![](https://img.haomeiwen.com/i4155986/6e7d9ec816f929e4.png)
接下来我们验证是否可以免密码登录:使用命令
ssh slave1
![](https://img.haomeiwen.com/i4155986/6b984473ae3b1eb7.png)
登陆成功,我们可以使用exit命令退出登录
6、安装java环境
这里我们可以直接使用linux的命令下载jdk,当然也可以在本地下载之后传输到虚拟机中,这里我采用的是后者,因为我感觉在主机上下载会比较快一些。到java官网中下载最新的jdk文件即可。
使用由于刚才我们配置了端口转发,因此我们可以使用winscp进行文件传输:
![](https://img.haomeiwen.com/i4155986/4e9e9cb50e6fdcf5.png)
传输文件到/home/sxw/Documents路径下,直接将文件进行拖拽即可:
![](https://img.haomeiwen.com/i4155986/ed370b824d76d834.png)
随后,在该路径下,使用如下命令进行解压:
tar -zxvf 文件名
![](https://img.haomeiwen.com/i4155986/d7c8ad6c761dd631.png)
重命名jdk文件夹为jdk
![](https://img.haomeiwen.com/i4155986/c01424ec52d79522.png)
随后修改配置文件:
sudo vim /etc/profile
添加如下三行:
export JAVA_HOME=/home/sxw/Documents/jdk
export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
![](https://img.haomeiwen.com/i4155986/c3308cfe85662b18.png)
使用source命令使修改生效,同时查看是否安装成功
![](https://img.haomeiwen.com/i4155986/56fd7156c30ccb1e.png)
7、安装scala环境
可以使用命令下载scala,不过我们仍然选择在本地下载scala:
下载地址:http://www.scala-lang.org/download/2.11.7.html
通过winscp传入各虚拟机里,并使用如下命令进行解压:
tar -zxvf 文件名
![](https://img.haomeiwen.com/i4155986/c742c548877e73b3.png)
重命名文件:
![](https://img.haomeiwen.com/i4155986/dde2b5435baf27c6.png)
修改配置文件,增加以下两行,并用source命令使修改生效:
![](https://img.haomeiwen.com/i4155986/0eecb1d4b7112ec0.png)
检查是否安装成功:
![](https://img.haomeiwen.com/i4155986/c1c610e58c7264fc.png)
可以看到scala已经安装成功了!
8、安装hadoop配置环境
我们首先在主节点上配置好hadoop的文件,随后使用scp命令传输到从节点上即可。
同样,我们在hadoop官网下载hadoop文件,通过winscp传入主节点,使用tar命令进行解压,并修改文件夹名为hadoop,这些这里暂且略过。
修改环境变量(所有节点都需要修改)并使用source命令使其生效:
![](https://img.haomeiwen.com/i4155986/7023e75b2759a69f.png)
接下来修改hadoop的配置文件:
(1)$HADOOP_HOME/etc/hadoop/hadoop-env.sh
修改JAVA_HOME 如下:
export JAVA_HOME=/home/sxw/Documents/jdk
(2)$HADOOP_HOME/etc/hadoop/slaves
修改salves里添加两个从节点的名称
slave1
slave2
(3)$HADOOP_HOME/etc/hadoop/core-site.xml
![](https://img.haomeiwen.com/i4155986/202bbdfeeff56f4a.png)
(4)$HADOOP_HOME/etc/hadoop/hdfs-site.xml
![](https://img.haomeiwen.com/i4155986/2e49f5acb5427d4f.png)
(5)$HADOOP_HOME/etc/hadoop/mapred-site.xml
首先使用如下命令生成mapred-site.xml文件:
cp mapred-site.xml.template mapred-site.xml
随后进行修改:
![](https://img.haomeiwen.com/i4155986/f6fc77aab4a053d8.png)
(6)$HADOOP_HOME/etc/hadoop/yarn-site.xml
![](https://img.haomeiwen.com/i4155986/c200731d4269ed0d.png)
至此,hadoop的配置文件就修改完了,我们用scp命令将修改好的hadoop文件传入到子节点即可
9、安装spark环境
我们首先在主节点上配置好spark的文件,随后使用scp命令传输到从节点上即可。
同样在spark官网下载最新的spark文件,并使用winscp传入虚拟机,使用tar命令进行解压,并重命名文件夹为spark。
添加spark到环境变量并使其生效:
![](https://img.haomeiwen.com/i4155986/e0648a67f72fc4ce.png)
接下来修改spark的配置文件:
(1)$SPARK_HOME/conf/spark-env.sh
首先使用如下命令生成spark-env.sh文件:
cpspark-env.sh.template spark-env.sh
随后进行修改:
![](https://img.haomeiwen.com/i4155986/42fe74422757a685.png)
(2)$SPARK_HOME/conf/slaves
首先使用如下命令生成slaves文件:
cpslaves.template slaves
随后进行修改:
![](https://img.haomeiwen.com/i4155986/9cd5d89854ae93d8.png)
至此,spark的配置文件就修改完了,我们用scp命令将修改好的spark文件传入到子节点即可,不要忘记修改子节点的环境变量
10、集群启动和关闭
首先我们编写一个启动脚本:
![](https://img.haomeiwen.com/i4155986/1588baf7e9a7493a.png)
可以看到,hadoop的启动需要两个命令,分别启动dfs和yarn,传统的start-all.sh已经被弃用。而spark的启动只需要一个命令。
启动的结果如下图所示:
![](https://img.haomeiwen.com/i4155986/dda1483a3d506186.png)
随后我们再编写一个关闭集群的脚本:
![](https://img.haomeiwen.com/i4155986/dddf9e3a80a6e09d.png)
11、Hadoop测试
我们在/home/sxw/Documents下建立一个wordcount.txt文件
文件内容如下图:
![](https://img.haomeiwen.com/i4155986/5ab71c9c129113dc.png)
到hadoop的bin路径下执行如下三条命令:
hadoop fs -mkdir-p /Hadoop/Input
hadoop fs-put wordcount.txt /Hadoop/Input
hadoop jar /home/sxw/Documents/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /Hadoop/Input /Hadoop/Output
可以看到我们的hadoop再进行运算了:
![](https://img.haomeiwen.com/i4155986/494ab4eca26e660f.png)
![](https://img.haomeiwen.com/i4155986/a239bd739bbf7645.png)
使用如下命令查看运算结果,发现我们的期望的结果正确输出:
hadoop fs -cat/Hadoop/Output/*
![](https://img.haomeiwen.com/i4155986/13abf79e73ced316.png)
hadoop配置成功!
12、spark测试
我们直接利用spark-shell 进行测试,编写几条简单额scala语句:
到spark的bin路径下执行./spark-shell命令进入scala的交互模式,并输入如下几条scala语句:
valfile=sc.textFile("hdfs://master:9000/Hadoop/Input/wordcount.txt")
val rdd=file.flatMap(line => line.split("")).map(word => (word,1)).reduceByKey(_+_)
rdd.collect()
rdd.foreach(println)
![](https://img.haomeiwen.com/i4155986/2e3b15ea35301f4c.png)
![](https://img.haomeiwen.com/i4155986/25fbbf16dcfedce9.png)
可以看到,我们的spark集群成功搭建!
哇,至此,我们的spark-hadoop集群搭建就告一段落了,如果你喜欢本文的话,麻烦点个喜欢哟,您的支持是小编前进下去的最大动力!
加我微信,我们一起学习,一起进步!
![](https://img.haomeiwen.com/i4155986/f255412ac41291e9.jpg)
网友评论