数据仓库与数据挖掘
-
什么是Hadoop
- 分布式
- 海量数据存储计算
作者: doug cutting
google 三篇论文 --Hadoop 思想之源
MAp-Reduce --> MR
GFS --> HDFS
BigTable --> HBase
缺点
优点
-
hadoop组成
- MapReaduce(计算)
- Yarm(资源调度)
- HDFS(数据存储)
-
Common(辅助工具)
hadoop组成
-
重要目录
(1)bin目录:存放对Hadoop相关服务(HDFS,YARN)进行操作的脚本
(2)etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件
(3)lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)
(4)sbin目录:存放启动或停止Hadoop相关服务的脚本
(5)share目录:存放Hadoop的依赖jar包、文档、和官方案例
一.架构详解
- HDFS
- NameNode
- DataNode
- Secondary NameNode
-
YARN
1.RescorceManager(RM)
2.ApplicationMaster(AM)
3.NodeManager(NM)
4.Container
image.png
3.MapReaduce
将计算过程分为两个阶段:Map和Reduce
1.Map阶段并行处理输入数据
2.Reduce阶段对Map结果进行汇总
image.png
二.Hadoop运行模式
- 本地运行模式
- 伪分布式运行模式
- 完全分布式运行模式(开发)
三.推荐系统框架
image.png公司部门
QQ图片20181225170603.png本地运行模式
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount winput output
网友评论