(四)大数据学习之Hadoop环境搭建

作者: Movle | 来源:发表于2019-07-18 00:08 被阅读0次

(四)大数据学习之Hadoop环境搭建
hadoop集群环境搭建之完全分布式集群环境搭建（二）
从零开始学Hadoop大数据分析之初识HDFS
大数据学习之Hadoop环境搭建
大数据平台Hadoop的分布式集群环境搭建
hadoop （五）操作HDFS
在centos7虚拟机上搭建伪分布式hadoop
hadoop 集群
从零开始学Hadoop大数据分析之ZooKeeper初识
搭建大数据平台系列(2)-zookeeper环境搭建

1.hadoop目录结构

Hadoop目录结构

2.Hadoop安装准备工作：

(1)安装好linux操作系统
(2)关闭防火墙
(3)在linux上安装JDK

3.安装Hadoop

(1)将Hadoop安装包拷贝到/opt/software文件目录下
(2)将Hadoop安装包解压到/opt/module文件目录下
命令为：

tar -zxvf hadoop-2.8.4.tar.gz -C /opt/module          //将hadoop-2.8.4.tar.gz解压到/opt/module目录下

(3)配置环境变量
a.修改环境变量配置文件

修改命令：

vi ~/.bash_profile          //修改环境变量的文件

添加的内容为：

HADOOP_HOME=/opt/module/hadoop-2.8.4
export HADOOP_HOME
PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH  //bin文件夹下是执行命令，sbin下是hadoop自带的命令
export PATH

b.使环境变量生效
输入命令：

source ~/.bash_profile

c.验证是否配置成功
输入命令：

start      // 按两下tab键，会出现提示，则证明配置成功

4.Hadoop安装---本地安装（没有HDFS和Yarn，只能够测试MR程序是否成功）

a.进入hadoop-2.8.4/etc/hadoop文件夹
输入命令：

cd /opt/module/hadoop-2.8.4/etc/hadoop              //进入hadoop-2.8.4/etc/hadoop文件夹

b.修改配置文件hadoop-env.sh：
输入命令：

vi hadoop-env.sh                             //修改hadoop-env.sh文件

修改内容为：

export JAVA_HOME=/opt/module/jdk1.8.0_144          //修改JAVAHOME地址，改为自己建的jdk地址，应该在25行

jdk

c.验证（运行一个MR程序）
(1)在/root/temp目录下创建一个a.txt文件
(2)修改a.txt文件

touch a.txt                                 //新建a.txt文件
vi a.txt                                    //修改a.txt

i am a tiger you are also a tiger           //添加内容

(3)进入/opt/module/hadoop-2.8.4/share/hadoop/mapreduce文件夹下
(4)运行wordcount程序 hadoop jar hadoop-mapreduce-examples-2.8.4.jar wordcount ~/temp/a.txt ~/temp/output/wc0717

cd /opt/module/hadoop-2.8.4/share/hadoop/mapreduce   //进入文件夹

//hadoop jar 程序包 函数名 输入文件地址（这里是本地linux路径，因为本地模式没有hdfs） 输出文件地址
hadoop jar hadoop-mapreduce-examples-2.8.4.jar wordcount ~/temp/a.txt  ~/temp/output/wc0717     //执行MR程序

运行成功后，会在/root/temp/output/文件夹下，生产wc0717文件下，此文件夹下有两个文件part-r-000000和_SUCCESS

wordcount程序运行结果

5.Hadoop安装---伪分布式安装(安装完伪分布式后，本地模式就不起作用)

(1)特点：在一台机器上模拟一个分布式环境具备的Hadoop的所有功能
HDFS：NameNode+DataNode+SecondarynameNode
Yarn：ResourceManager+NodeManager
(2)修改配置文件
step1:修改hadoop-env.sh文件（如本地模式）
命令：

vi /opt/module/hadoop-2.8.4/etc/hadoop/hadoop-env.sh

修改内容为：

export JAVA_HOME=/opt/module/jdk1.8.0_144

jdk

step2: 修改hdfs-site.xml 文件

cd /opt/module/hadoop-2.8.4/etc/hadoop              //进入etc/hadoop目录

vi hdfs-site.xml                          // 修改hdfs-site.xml文件

添加内容为：


<!--配置数据块的冗余度，默认是3，这里因为是伪分布模式，只有一台机器，因此设置为1-->
<property>
    <name>dfs.replication</name>
    <value>1</value>      
</property> 
<!-- 配置HDFS的权限检查，默认是true-->
<!--
<property>
    <name>dfs.permissions</name>
    <value>false</value>
</property>  
-->

hdfs-site.xml

step3：修改core-site.xml

vi core-site.xml

修改内容为：

<!--配置HDFS的主节点，namenode地址，9000是RPC通信端口-->
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://bigdata121:9000</value>
</property> 
<!--配置HDFS数据块和元数据保存的目录,一定要修改 -->
<property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/module/hadoop-2.8.4/data/tmp</value>      
</property>

core-site.xml

step4：修改mapred-site.xml(默认是没有的，需要从mapred-site.xml.template复制转化而来)

命令：

cp mapred-site.xml.template mapred-site.xml       //从mapred-site.xml.template转化
    
vi mapred-site.xml             //修改mapred-site.xml 文件

修改内容为：

<!--配置MR程序运行的框架，Yarn-->
<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>      
</property>

mapred-site.xml

step5: 修改yarn-site.xml

命令：

vi yarn-site.xml

修改内容为：

<!--配置Yarn的节点-->
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>bigdata121</value>      
</property>
<!--NodeManager执行MR任务的方式是Shuffle洗牌-->
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>      
</property>

yarn-site.xml

step6:通过HDFS namenode格式化

输入命令：

cd /opt/module/hadoop-2.8.4/tmp         //这里是step3配置的HDFS数据库和元数据存储目录

hdfs namenode -format                  //格式化

验证是否成功，成功后回显示：

Storage: Storage directory /opt/module/hadoop-2.8.4/tmp/dfs/name has been successfully formatted

验证格式化成功
注意
重复格式化，hadoop.tmp.dir 先停止集群，然后在删除tmp文件夹，再重新新建tmp文件夹，重新格式化，然后再启动集群
step7: 启动

命令：

start-all.sh            //启动

启动伪分布式

共需要输入4次linux登录密码

启动成功验证：

jps

启动成功验证

web验证：
http://192.168.127.121:8088 yarn
http://192.168.127.121:50070 HDFS

6.免密码登录的原理和配置

ssh不对称加密算法（加密和解密是两个文件）
(1)原理

公钥--锁：给出去，给其他机器
私钥--钥匙：自己留着，解密

SSH免密码登录原理

(2)配置免密码登录
输入命令：

ssh-keygen -t rsa    //然后三次回车

ssh-copy-id -i ~/.ssh/id_rsa.pub  root@bigdata121        //自己也要拷贝给自己，中途输入linux登录密码
ssh-copy-id -i ~/.ssh/id_rsa.pub  root@bigdata122
ssh-copy-id -i ~/.ssh/id_rsa.pub  root@bigdata123
ssh-copy-id -i ~/.ssh/id_rsa.pub  root@bigdata124
ssh-copy-id -i ~/.ssh/id_rsa.pub  root@bigdata125

所有机器需要拷贝过去
(3)验证：

ssh bigdata122           //会显示登录上bigdata122

7.Hadoop安装-全分布安装

(1)规划：
192.168.127.121 bigdata121 主节点
192.168.127.122 bigdata122 从节点
192.168.127.123 bigdata123 从节点

全分布式规划

(2)准备工作：
step1:安装jdk，关闭防火墙，设置ssh免密码登录，在etc/hosts添加主机名
step2:时间同步，
a.如果能上网，使用网络时间
b.不能上网，date -s 2019-07-17(同时操作多台机器)或者npt，用机器里面指定一个服务器，作为时钟服务器
step3：修改配置文件

修改hadoop-env.sh

命令：

vi hadoop-env.sh                             //修改hadoop-env.sh文件

修改内容为：

export JAVA_HOME=/opt/module/jdk1.8.0_144          //修改JAVAHOME地址，改为自己建的jdk地址，应该在25行

jdk

修改hdfs-site.xml

命令：

cd /opt/module/hadoop-2.8.4/etc/hadoop              //进入etc/hadoop目录

vi hdfs-site.xml                          // 修改hdfs-site.xml文件

修改内容为：

<!--配置数据块的冗余度，默认是3-->
<property>
    <name>dfs.replication</name>
    <value>2</value>
</property> 
<!-- 配置HDFS的权限检查，默认是true-->
<!--
<property>
    <name>dfs.permissions</name>
    <value>false</value>
</property>  
-->

hdfs-site.xml

修改core-site.xml
命令：

vi core-site.xml

修改内容为：

<!--配置HDFS的主节点，namenode地址，9000是RPC通信端口-->
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://bigdata121:9000</value>
</property> 
<!--配置HDFS数据块和元数据保存的目录,一定要修改 -->
<property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/module/hadoop-2.8.4/data/tmp</value>      
</property>

core-site.xml

修改mapred-site.xml(默认是没有的，需要从mapred-site.xml.template复制转化而来)

命令：

cp mapred-site.xml.template mapred-site.xml       //从mapred-site.xml.template转化
    
vi mapred-site.xml             //修改mapred-site.xml 文件

修改内容为：

<!--配置MR程序运行的框架，Yarn-->
<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>      
</property>

mapred-site.xml

修改yarn-site.xml

命令：

vi yarn-site.xml

修改内容为：

<!--配置Yarn的节点-->
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hadoop121</value>      
</property>
<!--NodeManager执行MR任务的方式是Shuffle洗牌-->
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>      
</property>

yarn-site.xml

修改slaves

命令：

vi slaves

修改内容为：

bigdata122            //bigdata122作为从节点
bigdata123            //bigdata123作为从节点

slaves

通过HDFS namenode格式化

命令：

cd /opt/module/hadoop-2.8.4/tmp         //这里是step3配置的HDFS数据库和元数据存储目录

hdfs namenode -format                  //格式化

验证是否成功，成功后回显示：

Storage: Storage directory /opt/module/hadoop-2.8.4/tmp/dfs/name has been successfully formatted

验证格式化成功

注意
重复格式化，hadoop.tmp.dir 先停止集群，然后在删除tmp文件夹，再重新新建tmp文件夹，重新格式化，然后再启动集群

通过scp拷贝，将bigdata121配置好的hadoop发送到另外两太机器上：

命令：

scp -r /opt/moudle/hadoop-2.8.4/ root@bigdata122:/opt/moudle/         //拷贝到bigdata122

scp -r /opt/moudle/hadoop-2.8.4/ root@bigdata123:/opt/moudle/         //拷贝到bigdata122

启动Hadoop集群

输入命令

start-all.sh             //在bigdata121中启动，因为此机器是主节点

验证是否启动：
bigdata121

bigdata121启动

bigdata122

bigdata122启动
bigdata123

bigdata123启动
与规划的相同，故Hadoop全分布安装成功

网友评论

玩转大数据

本文标题：(四)大数据学习之Hadoop环境搭建

本文链接：https://www.haomeiwen.com/subject/uivhlctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

(四)大数据学习之Hadoop环境搭建

1.hadoop目录结构

2.Hadoop安装准备工作：

3.安装Hadoop

4.Hadoop安装---本地安装（没有HDFS和Yarn，只能够测试MR程序是否成功）

5.Hadoop安装---伪分布式安装(安装完伪分布式后，本地模式就不起作用)

6.免密码登录的原理和配置

7.Hadoop安装-全分布安装

相关文章