1. 定义
狭义上讲,Hadoop 是一个分布式的 数据存储与数据计算 框架,主要包括:
广义上 Hadoop 指的是 Hadoop 生态圈,主要包括(但不限于)以下技术栈:
2. 起源
创造者:道 • 卡丁(Doug Cutting)
参考了Google的三篇论文:
- GFS:Google的分布式文件系统(Google File System)
- MapReduce:Google的分布式计算框架
- BigTable:大型分布式数据库
演变关系:
- GFS --> HDFS
- MapReduce --> MapReduce
- BigTable --> HBase
3. 发行版本
市面上常见的 Hadoop 发行版有以下 3 种:
-
Apache Hadoop
下载地址:http://hadoop.apache.org/
原生版本 -- 适合用于学习
优点:开源贡献者多、更新快、参考资料多(适用于学习)
缺点:版本管理比较混乱,版本之间兼容性差 -
CDH (Cloudera's Distribution including Apache Hadoop)
官网地址:https://www.cloudera.com/
收费版本 -- 适合生产环境中使用
优点:生态圈内各框架版本标准化,解决了版本兼容性问题 -
HDP (Hortonworks Data Platform)
官网地址:https://hortonworks.com/
开源版本 -- 但不常用
优点:开源 + web 管理界面
Apache Hadoop 主要版本
- 0.x 系列版本:Hadoop当中最早的⼀个开源版本,在此基础上演变⽽来的1.x以及2.x的版本
- 1.x 版本系列:Hadoop版本当中的第⼆代开源版本,主要修复0.x版本的⼀些bug等
- 2.x 版本系列:架构产⽣重⼤变化,引⼊了yarn平台等许多新特性
- 3.x 版本系列:EC技术、YARN的时间轴服务等新特性
4. Hadoop 优缺点
优点:
-
高可用
• 数据存储 --> 高可靠的数据存储机制(HDFS 副本机制)
• 数据计算 --> 高容错的任务分配机制(Yarn 调度机制) -
高扩展性
分布式框架的共性优势 -
高效性
这里主要是指 Hadoop 框架具有极强的 数据处理能力
数据处理能力主要是指在集群各节点间移动数据、使各节点保持动态平衡的能力
缺点:
- 不支持 低延迟数据访问 -- 计算速度较慢,不能快速地返回数据
- 不擅长 存储大量小文件 -- 大量小文件浪费内存资源
- 不支持 文件的任意修改 -- 支持追加写入
网友评论