1.下载
http://hadoop.apache.org/ hadoop官网
image.png
同时需要下载
Hadoop2.8.3windows环境下的第三方包:winutils,
https://github.com/steveloughran/winutils,
image.png
2.解压
一定要用管理员权限解压,否则解压不成功
先找到winRAR软件的安装位置,右键,以管理员打开。
image.png
点击解压到,将hadoop解压到指定位置,这里我解压到D:\hadoop-2.8.3
3.配置环境变量
添加HADOOP_HOME路径为hadoop安装路径D:\hadoop-2.8.3
在Path中添加路径 %HADOOP_HOME%\bin
4.注意
hadoop需要java 的jdk1.8以上支持。 jdk的路径已经不能有空格,比如
D:\Program Files\java\jdk1.8.0_162这是不行的。 我这里设置的是D:\Java\jdk1.8.0_162
电脑主机名里不能有下滑线,或者特殊字符 #$,不然会找不到主机导致无法启动,建议自己改一下主机名
5.
hadoop路径下创建data用于数据存储,再在data下创建datanode目录和namenode目录
6.
hadoop配置
四个hadoop路径/etc/hadoop/core-site.xml,etc/hadoop/mapred-site.xml,etc/hadoop/hdfs-site.xml,etc/hadoop/yarn-site.xml
1.core-site.xml(配置默认hdfs的访问端口)
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
2.mapred-site.xml,重命名mapred-site.xml.template为mapred-site.xml(设置mr使用的框架,这里使用yarn)
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
3.hdfs-site.xml(设置复制数为1,即不进行复制。namenode文件路径以及datanode数据路径。)
<configuration>
<!-- 这个参数设置为1,因为是单机版hadoop -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/D:/hadoop-2.8.3/data/namenode</value>
</property>
<property>
<name>fs.checkpoint.dir</name>
<value>/D:/hadoop-2.8.3/data/snn</value>
</property>
<property>
<name>fs.checkpoint.edits.dir</name>
<value>/D:/hadoop-2.8.3/data/snn</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/D:/hadoop-2.8.3/data/datanode</value>
</property>
</configuration>
4.yarn-site.xml(这里yarn设置使用了mr混洗)
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
至此,hadoop配置完成,hdfs负责分布式存储,mapreduce负责分布式计算,yarn负责资源调度,基本的(伪)分布式环境初步建立
7
修改D:/hadoop-2.8.3/etc/hadoop/hadoop-env.cmd配置,找到set JAVA_HOME=%JAVA_HOME% 替换为set JAVA_HOME=D:\Java\jdk1.8.0_25(如果你已经配置过JAVA_HOME的话,就不需要这么配置了)
8.
winutils中对应的hadoop版本中的bin替换自己hadoop安装目录下的bin
image.png
找到对应的版本下的bin替换hadoop中的bin
9.启动
1.cmd中,D:\hadoop-3.0.3\bin> hdfs namenode -format
执行后,data下的namenode和datanode下会有current等文件(格式化hdfs)
2.D:\hadoop-3.0.3\sbin 双击启动start-all.cmd服务,会看到
Hadoop Namenode
Hadoop datanode
YARN Resourc Manager
YARN Node Manager
3.执行stop-all.cmd 关闭Hadoop
10.HDFS应用
1.通过http://localhost:8088/ 即可查看集群中的所有节点状态。
2.通过http://localhost:50070 即可查看文件管理页面。
image.png
在3.0之前的版本中文件管理的端口是50070,在3.0.0中替换为了9870端口
3.通过hadoop命令进行操作
d.使用hadoop命令进行文件操作
mkdir命令创建目录:hadoop fs -mkdir hdfs://ip:9000/user
put命令上传文件:hadoop fs -put D:/a.txt hdfs://ip:9000/user/
ls命令查看指定目录文件列表:hadoop fs -ls hdfs://ip:9000/user/
image.png
网友评论