- hdfs集群:负责文件读写/namenode、datanode
- yarn集群:负责为mapreduce分配运算硬件资源/resource manager
- 环境的配置(mini1.mini2.mini3.mini4)
- 添加hadoop用户
useradd hadoop
passwd hadoop
- 配置sudoers
vi /etc/sudoers
yyp (复制粘贴一行)
scp /etc/sudoers mini2:/etc/
uri:统一资源定位符
hdfs://mini1:9000(协议,namenode)
jdbc:mysql://localhost:3306
- sftp上传编译好的hadoop,并配置文件
cd /home/hadoop/apps/hadoop-2.6.4/etc/hadoop
- hadoop-env.sh
配置$JAVA_HOME - core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://mini1:9000</value>
</property> (指定文件系统用hdfs,namenode:mini1,端口9000)
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/hdpdata</value>
</property> (集群上的机器的进程工作的数据目录)
</configuration>
- hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
</configuration>
- mapred-site.xml.template
<configuration>
<property>
<name>mapreduce.framwork.name</name>
<value>yarn</value>
</property>
</configuration>(mapreduce程序提交完后交给yarn)
mv mapred-site.xml.template mapred-site.xml
- yarn-site.xml
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>mini1</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
- 拷贝到集群中其他机器中:
scp -r apps mini2/3/4:/home/hadoop
- hadoop环境变量:
pwd
sudo vi /etc/profile
export HADOOP_HOME=/home/hadoop/apps/hadoop-2.6.4
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
再scp到其他mini2,3,4
sudo scp /etc/profile mini4:/etc/
source /etc/profile
-
格式化hdfs
格式化后都有啥
hadoop namenode -format
fsimage:文件系统元信息的镜像
-
启动hadoop
hadoop-daemon.sh start namenode
hadoop-daemon.sh start datanode
jps(查看java进程)
http://mini:50070
(jetty) 查看节点状态
- 最好的方式时写成一个脚本:XX
- 在/etc中本身就有startall的脚本, 其他的slaves等等都是自启动脚本的配置文件。
先配置文件slaves
- 在/etc中本身就有startall的脚本, 其他的slaves等等都是自启动脚本的配置文件。
start-dfs.sh
stop-dfs.sh
start-yarn.sh
stop-yarn.sh
- 集群中各机器的ssh免密码登陆配置
ssh-keygen
ssh-copy-id 其他机器主机名
网友评论