Hadoop

作者: 爱修仙的道友 | 来源:发表于2019-04-22 15:20 被阅读0次

使用场景:在分布式环境,通过Hadoop这个软件,来屏蔽底层硬件或通信的一些差异。

1 什么是 hadoop

1.1 功能详解

分布式存储和分布式计算,向下提供基于 HDFS 的分布式文件存储系统,向上提供基于 MapReduce 的计算框架。上层应用如:对 HBASE 数据库的查询请求可以转化为 MapReduce 计算调度位于 hdfs 上的数据。


image.png
1.2 名词释疑

• HDFS
o Namenode
存储整个文件系统的索引数据(元数据),大规模集群下需要做 HA(高可用);
o Secondarynamenode
可以简单任务是 namenode 的快照备份,主备模式;就是对Namenode进行硬件备份
o Datanode
具体存储数据的节点单元(独立的主机 slaver),Hadoop 文件系统的 block 大小为 128 兆。在分布式模式下对每一个 block 数据做 3 份存储,两份在同一个机柜,一份在不同机柜做多活;
• MapReduce
o Yarn(Container、ResourceManger、NodeManger):
ResourceManger——老师、NodeManger——小组长、Container——组员干活的Yarn 是分布式资源调度方案,MapReduce 计算时常用来管理集群协同使得计算能够有序进行。

2. 环境搭建

主页地址
http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoophdfs/HDFSHighAvailabilityWithNFS.html

2.1 jdk 安装

请百度

2.2 伪分布式的配置文件

请百度

2.3 测试

可以通过 webUI 登陆 hdfs 管理页面


image.png

伪分布式读取的则是 HDFS上的数据。要使用 HDFS,首先需要在 HDFS中创建用户目录,并上传文件

# 启动守护进程
C:\Devs\hadoop-2\hadoop-2.7.1>sbin\start-dfs.cmd
# 新建文件夹
C:\Devs\hadoop-2\hadoop-2.7.1>bin\hdfs dfs -mkdir -p /user/Hadoop
# 上传文件
C:\Devs\hadoop-2\hadoop-2.7.1>bin\hdfs dfs -put README.txt /user/Hadoop
# 访问
C:\Devs\hadoop-2\hadoop-2.7.1>bin\hdfs dfs -cat /user/Hadoop/README.txt

3 利用 http 访问 HDFS

3.1 http 协议和 postman image.png

相关文章

网友评论

      本文标题:Hadoop

      本文链接:https://www.haomeiwen.com/subject/tagsgqtx.html