Hadoop

作者: 爱修仙的道友 | 来源:发表于2019-04-22 15:20 被阅读0次

一、初识Hadoop
论Hadoop在大数据领域重要性，应该从入门谈起，Hadoop安
伪分布式部署yarn和MapReduce案例
hadoop集群配置
Hadoop用户的无密码信任关系实验
hadoop 安装问题总结
hadoop集群配置-总结
初认hadoop
Spark2.3.0-cdh5.16.1 standalone部
大数据技术原理与应用：大数据处理架构Hadoop生态圈

使用场景：在分布式环境，通过Hadoop这个软件，来屏蔽底层硬件或通信的一些差异。

1 什么是 hadoop

1.1 功能详解

分布式存储和分布式计算，向下提供基于 HDFS 的分布式文件存储系统，向上提供基于 MapReduce 的计算框架。上层应用如：对 HBASE 数据库的查询请求可以转化为 MapReduce 计算调度位于 hdfs 上的数据。

image.png

1.2 名词释疑

• HDFS
o Namenode
存储整个文件系统的索引数据（元数据），大规模集群下需要做 HA(高可用)；
o Secondarynamenode
可以简单任务是 namenode 的快照备份，主备模式；就是对Namenode进行硬件备份
o Datanode
具体存储数据的节点单元（独立的主机 slaver），Hadoop 文件系统的 block 大小为 128 兆。在分布式模式下对每一个 block 数据做 3 份存储，两份在同一个机柜，一份在不同机柜做多活；
• MapReduce
o Yarn（Container、ResourceManger、NodeManger）：
ResourceManger——老师、NodeManger——小组长、Container——组员干活的Yarn 是分布式资源调度方案，MapReduce 计算时常用来管理集群协同使得计算能够有序进行。

2. 环境搭建

主页地址
 http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoophdfs/HDFSHighAvailabilityWithNFS.html

2.1 jdk 安装

请百度

2.2 伪分布式的配置文件

请百度

2.3 测试

可以通过 webUI 登陆 hdfs 管理页面

image.png

伪分布式读取的则是 HDFS上的数据。要使用 HDFS，首先需要在 HDFS中创建用户目录，并上传文件

# 启动守护进程
C:\Devs\hadoop-2\hadoop-2.7.1>sbin\start-dfs.cmd
# 新建文件夹
C:\Devs\hadoop-2\hadoop-2.7.1>bin\hdfs dfs -mkdir -p /user/Hadoop
# 上传文件
C:\Devs\hadoop-2\hadoop-2.7.1>bin\hdfs dfs -put README.txt /user/Hadoop
# 访问
C:\Devs\hadoop-2\hadoop-2.7.1>bin\hdfs dfs -cat /user/Hadoop/README.txt