hadoop入门配置

作者: hcq0514 | 来源:发表于2018-12-15 19:04 被阅读0次

Hadoop-入门篇环境搭建（一）
hadoop入门配置
hadoop的安装与操作
Giraph配置及使用
hadoop伪分布式搭建参数配置
Hadoop-入门篇环境搭建（二）
Hadoop多用户的配置(Hadoop client机器配置)
ubuntu16.04 spark连接hadoop配置
Hive通过JDBC连接HiveServer
Hadoop-入门篇环境搭建（四）

VM配置

修改ip为静态并且配置hostname

 vi /etc/sysconfig/network-scripts/ifcfg-eth0
修改配置如下
DEVICE="eth0"
BOOTPROTO=none
NM_CONTROLLED="yes"
BOOTPROTO=static
ONBOOT="yes"
TYPE="Ethernet"
UUID="d77eb1d3-2d3e-476f-b735-5eef8665fa81"
IPADDR=192.168.1.101
NAME="System eth0"
HWADDR=00:0C:29:08:D5:96
GATEWAY=192.168.1.2
DNS1=192.168.1.2

配置hostname
[root@hadoop101~] vi /etc/sysconfig/network
修改文件中主机名称
NETWORKING=yes
NETWORKING_IPV6=no
HOSTNAME= hadoop101

修改hosts(此步骤在winodows下也要配置C:\Windows\System32\drivers\etc\hosts)
[root@hadoop100 ~] vim /etc/hosts
添加如下内容
192.168.1.100 hadoop100
192.168.1.101 hadoop101
192.168.1.102 hadoop102
192.168.1.103 hadoop103
192.168.1.104 hadoop104
192.168.1.105 hadoop105
192.168.1.106 hadoop106
192.168.1.107 hadoop107
192.168.1.108 hadoop108

关闭防火墙

service iptables stop 临时关闭防火墙
chkconfig iptables off 关闭全部
chkconfig iptables on 开启全部
chkconfig iptables --list 查看防火墙状态

[hcq@hadoop101 hadoop]$ chkconfig iptables --list
iptables        0:off   1:off   2:off   3:off   4:off   5:off   6:off

Linux 系统有 7 个运行级别(runlevel) 运行级别
0：系统停机状态，系统默认运行级别不能设为 0，否则不能正常启动运行级别 1：单用户工作状态，root 权限，用于系统维护，禁止远程登陆运行级别
2：多用户状态(没有 NFS) 运行级别
3：完全的多用户状态(有 NFS)，登陆后进入控制台命令行模式运行级别
4：系统未使用，保留运行级别
5：X11 控制台，登陆后进入图形 GUI 模式运行级别
6：系统正常关闭并重启，默认运行级别不能设为 6，否则不能正常启动

配置java与hadoop

在opt目录下创建 software跟module模块
(1):放置java安装包跟hadoop安装包到software下
(2):解压software下的安装包到module目录
(3):创建账号hcq并配置好权限

adduser hcq  //添加一个名为hcq的用户
passwd hcq  //修改密码

#修改 /etc/sudoers 文件
[root@hadoop101 ]# vi /etc/sudoers

找到下面一行，在 root 下面添加一行，如下所示：
## Allow root to run any commands anywhere
root ALL=(ALL) ALL
atguigu ALL=(ALL) ALL
修改完毕，现在可以用 hcq帐号登录，然后用命令 su - ，即可获得 root 权限进行
操作。

#修改目录所有者为hcq
[root@hadoop101 opt] chown hcq:hcq module/
[root@hadoop101 opt] chown hcq:hcq software/
[root@hadoop101 opt] ls -al
total 16
drwxr-xr-x.  4 root root 4096 Dec 12 06:27 .
dr-xr-xr-x. 22 root root 4096 Dec 15 09:09 ..
drwxr-xr-x.  4 hcq  hcq  4096 Dec 13 14:06 module
drwxr-xr-x.  2 hcq  hcq  4096 Dec 12 14:44 software

配置环境变量 (vi /etc/profile)

#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_191
export PATH=$PATH:$JAVA_HOME/bin

在/etc/profile里面配置hadoop目录
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

在/opt/module/hadoop-2.7.2/etc/hadoop目录下修改hadoop-env.sh
修改{JAVA_HOME}为java hom的绝对路径/opt/module/jdk1.8.0_191

配置完重启vm，可用java,hadoop命令查看是否成功

hadoop官方样例

http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html#Standalone_Operation

grep案例

创建input目录
[hcq@hadoop101 hadoop-2.7.2]$  mkdir input

复制hadoop的例子文件到input目录下
[hcq@hadoop101 hadoop-2.7.2]$ cp etc/hadoop/*.xml input 

执行mapreduce jar包下的grep函数
[hcq@hadoop101 hadoop-2.7.2]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar grep input output 'dfs[a-z.]+'
   cat output/*

Wordcount案例

与第一个案例一样 ，先创建一个dir :mkdir
[hcq@hadoop101 hadoop-2.7.2]$ mkdir wcinput

里面新建一文件 wcount.input(必须是.input结尾的，不然会报错)
[hcq@hadoop101 hadoop-2.7.2]$ vim wcount.input

然后执行wordcount函数(wcoutput输出目录必须不存在)
[hcq@hadoop101 hadoop-2.7.2]$ bin/hadoop jar 
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput

伪分布式运行 Hadoop 案例

分析：

准备 1 台客户机
安装 jdk
配置环境变量
安装 hadoop
配置环境变量
配置集群
启动、测试集群增、删、查
执行 wordcount 案例

执行步骤

配置hadoop-env.sh
配置：core-site.xml

[hcq@hadoop101 hadoop-2.7.2]]$ vi /etc/hadoop/core-site.xml 
<!-- 指定 HDFS 中 NameNode 的地址 -->
<property>
<name>fs.defaultFS</name>
 <value>hdfs://hadoop101:9000</value>
</property>
<!-- 指定 hadoop 运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>

配置：hdfs-site.xml

<!-- 指定 HDFS 副本的数量 -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>

启动集群

# 格式化 namenode（第一次启动时格式化，以后尽量不要去格式化）
[hcq@hadoop101 hadoop-2.7.2]$ bin/hdfs namenode -format

#启动 namenode
[hcq@hadoop101 hadoop-2.7.2]$ sbin/hadoop-daemon.sh start namenode

#启动 namenode
[hcq@hadoop101 hadoop-2.7.2]$ sbin/hadoop-daemon.sh start datanode

#查看是否启动成功，如下显示即为开启成功
[hcq@hadoop101 hadoop-2.7.2] jps
3029 Jps
2885 NameNode
2966 DataNode

web 端查看 HDFS 文件系统
http://192.168.1.101:50070/dfshealth.html#tab-overview

image.png
集群操作

# 在 hdfs 文件系统上创建一个 input 文件夹
[hcq@hadoop101 hadoop-2.7.2] bin/hdfs dfs -mkdir -p /user/hcq/input

#  put将测试文件内容上传到文件系统上
[hcq@hadoop101 hadoop-2.7.2]$ bin/hdfs dfs -put wcinput/wc.input  /user/hcq/input/

# 查看上传文件是否正确
[hcq@hadoop101 hadoop-2.7.2]$ bin/hdfs dfs -ls /user/hcq/input
Found 1 items
-rw-r--r--   1 root supergroup         33 2018-12-15 07:17 /user/hcq/input/wc.input

# 查看文件内容 cat命令 与linux一样
[hcq@hadoop101 hadoop-2.7.2]$ bin/hdfs dfs -cat /user/hcq/input/wc.input
hcq1 
hcq2 hcq2 
hcq3 hcq3 hcq3 

#运行mapreduce程序
[hcq@hadoop101 hadoop-2.7.2]$
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jarwordcount
 /user/hcq/input  /user/hcq/output

#查看执行结果
[hcq@hadoop101 hadoop-2.7.2]$ bin/hdfs dfs -cat /user/hcq/output/*

浏览器查看结果

image.png
hdfs其他操作

#将输出下载到本地
[hcq@hadoop101 hadoop-2.7.2]$ hadoop fs -get /user/hcq/
output/part-r-00000 ./wcoutput/

#删除输出
[hcq@hadoop101 hadoop-2.7.2]$ hdfs dfs -rmr /user/hcq/output