一。 hadoop-env.sh
export JAVA_HOME=/export/servers/jdk1.8.0_65
二。 core-site.xml
<!-- 用于设置Hadoop的文件系统,由URI指定 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://node01:9000</value>
</property>
<!-- 配置Hadoop存储数据目录,默认/tmp/hadoop-${user.name}-->
<property>
<name>hadoop.tmp.dir</name>
<value>/export/data/hadoopdata</value>
</property>
三。 hdfs-site.xml
<!-- 指定HDFS副本的数量 -->
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<!-- secondary namenode 所在主机的ip和端口-->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>node02:50090</value>
</property>
四。 mapred-site.xml
<!-- 指定mr运行时框架,这里指定再yarn上,默认是local-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
五。 yarn-site.xml
<!-- 指定yarn的主角色(ResourceManager)的地址-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>node01</value>
</property>
<!-- NodeManger 上运行的附属服务。需配置mapreduce_shuffle,才可运行MapReduce程序默认值: ""-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
六。 slaves
node01
node02
node03
七。 配置环境变量
vi /etc/profile
八。 MapReduce jobHistory
修改mapred-site.xml
<!-- MR JobHistory Server管理的日志的存放访问地址 -->
<property>
<name>mapreduce.jobhistory.address</name>
<value>node01:10020</value>
</property>
<!-- MR JobHistory Server管理的日志的web查看地址 -->
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>node01:19888</value>
</property>
<!-- 配置运行过的日志存放在hdfs上的存放路径 -->
<property>
<name>mapreduce.jobhistory.done-dir</name>
<value>/export/data/history/done</value>
</property>
<!-- 配置正在运行中的日志在hdfs上的存放路径 -->
<property>
<name>mapreduce.jobhistory.intermediate-done-dir</name>
<value>/export/data/history/done_intermediate</value>
</property>
开启日志聚合功能,修改yarn-site.xml
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
九。 垃圾桶机制配置
修改core-site.xml
那么可以按照生产上的需求设置回收站的保存时间,这个时间以分钟为单位,例如1440=24h=1天。
<property>
<name>fs.trash.interval</name>
<value>1440</value>
</property>
网友评论