Hadoop平台基础搭建

作者: 红炉点雪hi | 来源:发表于2017-09-16 19:18 被阅读108次

Spark组件部署-单节点
CentOS下hadoop2.4.1的伪分布式搭建
Hadoop平台基础搭建
Hadoop、Hbase HA高可用集群搭建
Hadoop Hbase HA高可用集群搭建
Hadoop生态学习之Hadoop集群搭建
大数据平台Hadoop的分布式集群环境搭建
Hadoop平台搭建
Hive 基础搭建教程
搭建大数据平台系列(2)-zookeeper环境搭建

基础准备：
Ubuntu
hadoop-2.7.3.tar.gz
jdk-8u144-linux-x64.tar.gz

1.Hadoop平台是完全使用Java开发的，所以在搭建Hadoop时我们首先需要安装jdk，并且配置它的环境变量。

1）首先将jdk的tar包进行解压，作者的tar是在/usr/hadoop/目录下的,输入指令:

sudo tar -zxf /usr/hadoop/jdk-8u144-linux-x64.tar.gz -C /usr/lib

首先将jdk的tar包进行解压
解压完以后我们要进行的是环境变量的配置

2）首先我们用vim编辑器打开在 ~/.bashrc

vim ~/.bashrc

之后在改文件底部加上两行配置

export JAVA_HOME=jdk所在路径
export PATH=$PATH:$JAVA_HOME/bin

更改完成以后保存并退出
之后使配置文件生效

source ~/.bashrc

2.Hadoop的安装和配置
1)首先需要解压Hadoop文件和之前的一样jdk一样不再进行复述
2)之后需要在bashrc文件中进行环境变量的配置

export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

更改完成以后保存并退出
之后使配置文件生效

source ~/.bashrc

3)之后就需要对Hadoop平台的配置文件进行更改，在更改之前首先介绍一下Hadoop平台根目录下的各个目录的作用和存放内容：

目录	说明
bin/	各项运行文件，包括Hadoop、hdfs、yarn等
sbin/	各项shell运行文件。包括start-all.sh、stop-all.sh
etc/	etc/hadoop 子目录包含Hadoop配置文件，例如： hadoop-env.sh、core-site.xml、yarn-site.xml、mapred-site.xml、hdfs-site.xml
lib/	hadoop函数库
logs/	系统日志，可以查看系统运行状况，运行有问题时可以从日志找出错误原因

下面我们进行hadoop配置设置文件

hadoop-env.sh
使用vim编辑器打开这个配置文件，需要更改的地方：

export JAVA_HOME=${JAVA_HOME}

将=右边的内容全部删除更改为jdk的安装路径

core-site.xml
在configuration标签中添加以下内容：

<property>
  <name>fs.default.name</name>
  <value>hdfs://localhost:9000</value>
</property>

yarn-site.xml

<property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
</property>
<property>
  <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
  <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>

mapred-site.xml
首先我们需要执行下面这条语句将mapred-site.xml.template模板转成xml文件

sudo cp mapred-site.xml.template mapred-site.xml

之后还是使用vim编辑器进行编辑

<property>
  <name>mapreduce.framework.name</name>
  <value>yarn<value>
<property>

hdfs-site.xml

<property>
  <name>dfs.replication</name>
  <value>3</value>
</property>
<property>
  <name>dfs.namenode.name.dir</name>
  <value>file:/usr/local/hadoop/hadoop-2.7.3/hdfs/namenode</value>
</property>
<property>
  <name>dfs.datanode.data.dir</name>
  <value>file:/usr/local/hadoop/hadoop-2.7.3/hdfs/datanode</value>
</property>

所有的配置文件全部都已经修改完成
之后我们需要创建HDFS目录
分别创建这两个文件目录：
/usr/local/hadoop/hadoop-2.7.3/hdfs/namenode
/usr/local/hadoop/hadoop-2.7.3/hdfs/datanode

现在我们需要将hadoop目录的所有者改为我们当前使用的账号，因为sudo方式无法去使用hadoop命令因此我们去格式化hdfs时将会权限不够

sudo chown 所属用户：所属分组 -R /usr/local/hadoop

之后我们就可以进行HDFS的格式化咯
hadoop namenode -format

现在我们就需要去启动hdfs上的各种服务了，因为我们搭建的是伪分布式，因此我们需要ssh工具,并且设置它为免密登录
首先是下载ssh

sudo apt-get install ssh

之后是产生SSH Key（秘钥）进行后续身份验证

ssh-keygen -t rsa

产生了以后我们需要去查看一下确定是否产生

ll ~/.ssh

你将会看到所有的文件中有一个名字叫id_rsa.pub的文件，那么我们的秘钥就已经生成成功了，最后我们需要将产生的key放置到许可证文件中

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

启动hadoop上的所有服务

start-all.sh

最后一步查看hadoop伪分布式是否已经搭建成功

jps

最后的效果应该是:

进程效果图.png

Spark组件部署-单节点
一、[[Hadoop平台搭建-单节点-伪分布式|构建Hadoop基础平台]] 二、Spark on yarn 当前...
CentOS下hadoop2.4.1的伪分布式搭建
liunx环境要求搭建平台搭建平台CentOS6.4Hadoop版本 Hadoop2.4.1Java版本 j...
Hadoop平台基础搭建
基础准备：Ubuntuhadoop-2.7.3.tar.gzjdk-8u144-linux-x64.tar.gz ...
Hadoop、Hbase HA高可用集群搭建
本文用以记录Hadoop、Hbase HA高可用集群搭建基础环境准备根据前面hadoop集群搭建、hbase集群...
Hadoop Hbase HA高可用集群搭建
本文用以记录Hadoop、Hbase HA高可用集群搭建基础环境准备根据前面hadoop集群搭建、hbase集群...
Hadoop生态学习之Hadoop集群搭建
hadoop集群基础环境搭建注意:基础的Hadoop集群只包含HDFS、YARN、MapReduce三个基本组件...
大数据平台Hadoop的分布式集群环境搭建
大数据平台Hadoop的分布式集群环境搭建 1 概述本文章介绍大数据平台Hadoop的分布式环境搭建、以下为Ha...
Hadoop平台搭建
（一）安装Java jdk 1.下载jdk并安装从官网下载后找个，在usr/local/java文件夹下解压，...
Hive 基础搭建教程
需要安装Hadoop，教程：Hadoop 基础搭建教程需要了解Hive基本概念：Hive 基础知识 1. 相关依...
搭建大数据平台系列(2)-zookeeper环境搭建
目前本系列文章有：搭建大数据平台系列(0)-机器准备搭建大数据平台系列(1)-Hadoop环境搭建[hdfs,ya...