----------------------------------简介-------------------------------------------
HDFS
一个Master (NameNode/NN) 带多个Slaves(DataNode/DN)
HDFS/YARN/HBase
一个文件会被拆分成多个Block
一个blocksize 128M 一个block 除了最后一个block 大小都为128M
NN:
1)响应客户端的请求
2)负责元数据(文件名称 副本系数 Block存放的DN
DN:
1)存储用户的文件对应的数据块Block
2)要定期向NN发送心跳 回报本身以及所有的block信息,健康状况
一台机器运行NN +N台机器运行DN
replication factor 副本系数
----------------------------------安装-------------------------------------------
下载Hadoop
http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz
安装jdk与ssh
验证java
/home/hadoop/app/jdk1.7.0_51/bin
./java -version
配置环境变量
cd
vi .bash_profile
export JAVA_HOME=/home/hadoop/app/jdk1.7.0_51
机器参数设置
hostname
位置 vim /etc/sysconfig/network
设置ip和hostname映射关系 /etc/hosts
ssh免密码登录(也可以不用) ssh-keygen -t rsa
cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys
解压hadoop到指定目录
Hadoop配置文件修改
进入hadoop根目录
cd etc/hadoop
vi hadoop-env.sh
export JAVA_HOME=${JAVA_HOME} //JDK环境变量
vi core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://hadoop001:8020</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/app/tmp</value>//自己选一个文件夹存放
</property>
</configuration>
vi hdfs-site.xml
<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/hadoop/tmp/dfs/name</value>//自己选一个文件夹存放
</property>
</configuration>
----------------------------------基础-------------------------------------------
格式化HDFS(第一次使用执行)
进入hadoop根目录
bin/hdfs namenode - format
启动HDFS
进入hadoop根目录
sbin/start-dfs.sh
jps验证节点
5543 DataNode
5446 NameNode
5681 SecondaryNameNode
http://1ip:50070/dfshealth.html#tab-overview
浏览文件系统
http://ip:50070/explorer.html#/
命令浏览文件系统 -R 递归查询
hadoop fs -ls -R/
停止HDFS
sbin/stop-dfs.sh
创建文件 -p 多层文件夹
hadoop fs -mkdir -p /a/b
尝试拷贝文件
hadoop fs -put hdfs.cmd /a
查看文件
hadoop fs -cat /a/hdfs.cmd
尝试下载文件
hadoop fs -get /a/hdfs.cmd a_tmp
删除文件
hadoop fs -rm /a/hdfs.cmd
递归删除
hadoop fs rm -r /a
网友评论