使用场景:在分布式环境,通过Hadoop这个软件,来屏蔽底层硬件或通信的一些差异。
1 什么是 hadoop
1.1 功能详解
分布式存储和分布式计算,向下提供基于 HDFS 的分布式文件存储系统,向上提供基于 MapReduce 的计算框架。上层应用如:对 HBASE 数据库的查询请求可以转化为 MapReduce 计算调度位于 hdfs 上的数据。
image.png
1.2 名词释疑
• HDFS
o Namenode
存储整个文件系统的索引数据(元数据),大规模集群下需要做 HA(高可用);
o Secondarynamenode
可以简单任务是 namenode 的快照备份,主备模式;就是对Namenode进行硬件备份
o Datanode
具体存储数据的节点单元(独立的主机 slaver),Hadoop 文件系统的 block 大小为 128 兆。在分布式模式下对每一个 block 数据做 3 份存储,两份在同一个机柜,一份在不同机柜做多活;
• MapReduce
o Yarn(Container、ResourceManger、NodeManger):
ResourceManger——老师、NodeManger——小组长、Container——组员干活的Yarn 是分布式资源调度方案,MapReduce 计算时常用来管理集群协同使得计算能够有序进行。
2. 环境搭建
主页地址
http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoophdfs/HDFSHighAvailabilityWithNFS.html
2.1 jdk 安装
请百度
2.2 伪分布式的配置文件
请百度
2.3 测试
可以通过 webUI 登陆 hdfs 管理页面
image.png
伪分布式读取的则是 HDFS上的数据。要使用 HDFS,首先需要在 HDFS中创建用户目录,并上传文件
# 启动守护进程
C:\Devs\hadoop-2\hadoop-2.7.1>sbin\start-dfs.cmd
# 新建文件夹
C:\Devs\hadoop-2\hadoop-2.7.1>bin\hdfs dfs -mkdir -p /user/Hadoop
# 上传文件
C:\Devs\hadoop-2\hadoop-2.7.1>bin\hdfs dfs -put README.txt /user/Hadoop
# 访问
C:\Devs\hadoop-2\hadoop-2.7.1>bin\hdfs dfs -cat /user/Hadoop/README.txt
网友评论