Hadoop是一个由Apache基金会所开发的分布式系统基础架构,实现了一个分布式文件系统。
其凭借着低成本、高可靠、高扩展、高有效、高容错等特性成为最流行的大数据分析系统。要入门大数据,最好的办法就是理清Hadoop的生态系统
入门大数据,重点知识清单:
hadoop项目主要包括以下四个模块:
Hadoop学习简介1. hadoop Common 为其它hadoop模块提供基础设施
2. hadoop HDFS 一个可靠、高吞吐量的分布式文件系统
3. hadoop MapReduce 一个分布式的离线并行计算框架
4. hadoop YARN 任务调度与资源管理
hadoop生态系统:
Hadoop学习简介Hadoop:分布式存储、分布式计算、资源调度与任务管理
HDFS、MapReduce、yarn、common
Nutch开源的搜索引擎
Lucene:索引检索工具包;Solr索引服务器
HBase/Cassandra:基于谷歌的BigTable开源的列式存储的非关系型数据库
Hive:基于SQL的分布式计算引擎,同时是一个数据仓库
Pig:基于Pig Latin脚本的计算引擎
Thrift/Avro:RPC框架,用于网络通信
BigTop:项目测试、打包、部署
Oozie/Azakban:大数据的工作流框架
Chukwa/Scribe/Flume:数据收集框架
Whirr:部署为云服务的类库
Sqoop:数据迁移工具
Zookeeper:分布式协调服务框架
HAMA:图计算框架
Mahout:机器学习框架
网友评论