1. 什么是Hadoop?
Hadoop是一个开源软件框架,用于在商用硬件集群上存储数据和运行应用程序。 它为任何类型的数据提供海量存储,并且还拥有巨大的处理能力以及处理几乎无限的并发任务或作业的能力。简单点说,Hadoop就是一个对海量数据进行分布式存储和计算的平台。
- Framework for solving data-intensive processes
- Designed to scale massively
- Very fast for big jobs
- Variety of processing engines, such as Tez, Spark and Storm
- Designed for hardware and software failures
2. Hadoop的特点
- 性价比高:能在普通机器组成的集群中并行为大量数据提供计算
- 可扩展:可以根据需要添加新节点,而无需更改现有数据分布,也不需要对作业和应用程序进行任何更改。
- 容错性:如果有节点挂掉了,系统会将工作重定向到数据的另一个位置,并继续处理而不会中断
- 灵活性:Hadoop在处理数据时才会对数据进行解释(读时模式),所以能够储存任何数据类型
3. Hadoop核心项目
- HDFS(Hadoop分布式文件系统)
- MapReduce(分布式并行计算框架)
4. Hadoop架构
- 分布式存储系统HDFS
提供高可靠性,高扩展性, 高吞吐率的数据存储- 分布式计算框架MapReduce
具有易于编程,高容错性,高扩展性等优点- 资源管理系统YARN(Yet Another Resource Negotiator)
负责集群资源的统一管理和调度- Others
网友评论