大数据工具Hadoop快速入门２Hadoop简介

作者: python测试开发 | 来源:发表于2019-01-16 11:37 被阅读57次

大数据工具Hadoop快速入门２Hadoop简介
大数据工具Hadoop快速入门１大数据简介
Hadoop-Hive基础知识整理
day06.Hadoop快速入门&云服务三种模式IaaS
pandas入门
Sqoop 简介
大数据学习- Hadoop的快速入门
Excel快速入门教程7-预算实例
大数据工具Hadoop快速入门13大数据测试
大数据Hadoop入门简介

简介

Apache HADOOP是用于开发分布式计算环境中执行的数据处理应用程序的框架。

与驻留在个人计算机系统的本地文件系统中的数据类似，在Hadoop中，数据驻留在称为Hadoop分布式文件系统 。

处理模块基于Data Locality概念，其中计算逻辑被发送到包含数据的集群节点(服务器)。

这种计算逻辑只不过是用Java等高级语言编写的程序的编译版本。这样的程序，处理存储在Hadoop HDFS中的数据。

架构

图片.png

Apache Hadoop包含两个子项目 -

Hadoop MapReduce ：MapReduce是计算模型和软件框架，用于编写在Hadoop上运行的应用程序。这些MapReduce程序能够在大型计算节点集群上并行处理大量数据。
HDFS （ Hadoop分布式文件系统 ）：HDFS负责Hadoop应用程序的存储部分。 MapReduce应用程序使用HDFS中的数据。 HDFS创建多个数据块副本，并将它们分发到群集中的计算节点上。这种分布可以实现可靠且极其快速的计算。

尽管Hadoop以MapReduce及其分布式文件系统HDFS而闻名，但该术语还用于属于分布式计算和大规模数据处理的一系列相关项目。Apache的其他Hadoop相关项目包括Hive ， HBase ， Mahout ， Sqoop ， Flume和ZooKeeper 。