Hadoop学习简介

作者: 失心菜 | 来源:发表于2019-06-24 21:36 被阅读1次

      Hadoop是一个由Apache基金会所开发的分布式系统基础架构,实现了一个分布式文件系统。

      其凭借着低成本、高可靠、高扩展、高有效、高容错等特性成为最流行的大数据分析系统。要入门大数据,最好的办法就是理清Hadoop的生态系统


入门大数据,重点知识清单:

hadoop项目主要包括以下四个模块:

Hadoop学习简介

1.  hadoop Common 为其它hadoop模块提供基础设施

2.  hadoop HDFS 一个可靠、高吞吐量的分布式文件系统

3.  hadoop MapReduce 一个分布式的离线并行计算框架

4.  hadoop YARN 任务调度与资源管理

hadoop生态系统:

Hadoop学习简介

Hadoop:分布式存储、分布式计算、资源调度与任务管理

HDFS、MapReduce、yarn、common

Nutch开源的搜索引擎

Lucene:索引检索工具包;Solr索引服务器

HBase/Cassandra:基于谷歌的BigTable开源的列式存储的非关系型数据库

Hive:基于SQL的分布式计算引擎,同时是一个数据仓库

        Pig:基于Pig Latin脚本的计算引擎

Thrift/Avro:RPC框架,用于网络通信

BigTop:项目测试、打包、部署

Oozie/Azakban:大数据的工作流框架

Chukwa/Scribe/Flume:数据收集框架

Whirr:部署为云服务的类库

Sqoop:数据迁移工具

Zookeeper:分布式协调服务框架

HAMA:图计算框架

Mahout:机器学习框架


        小编会持续更新,希望能和各位一起学习,有什么精彩评论,尽管发言。

相关文章

  • Hadoop学习简介

    Hadoop是一个由Apache基金会所开发的分布式系统基础架构,实现了一个分布式文件系统。 其凭借...

  • hadoop学习笔记

    这篇为学习hadoop的笔记,书籍来自《Hadoop构建数据仓库实战》 hadoop简介   hadoop是一个由...

  • java大数据之hadoop

    一、Hadoop简介 1.1 Hadoop是什么 The Apache Hadoop project develo...

  • 大数据技术原理与应用:大数据处理架构Hadoop生态圈

    Hadoop生态圈 概述 Hadoop简介什么是Apache hadoop?Apache Hadoop项目是以可靠...

  • Hadoop简介

    什么是hadoop hadoop是apache下的一款开源分布式大数据处理框架,通过多台廉价机器搭建集群的方式 ,...

  • Hadoop简介

    Hadoop是一个Apache基金会所开发的分布式系统基础架构,具有高容错、高可靠性、高扩展性、高效、低成本等特点...

  • Hadoop简介

    从数据爆炸开始。。。 一、 第三次工业革命 第一次:18世纪60年代,手工工厂向机器大生产过渡,以蒸汽机的发明...

  • Hadoop简介

    Hadoop 介绍 Hadoop是Apache组织的一个分布式计算框架(java语言),其最核心的设计就是:HDF...

  • Hadoop简介

    Hadoop概述开源分布式计算平台,以HDFS、MapReduce为核心,为用户提供了系统底层细节透明的分布式基础...

  • hadoop简介

    Hadoop简介 *Hadoop 擅长处理一次写入,多次读出的数据 hadoop两大核心组件是 HDFS 和 ma...

网友评论

    本文标题:Hadoop学习简介

    本文链接:https://www.haomeiwen.com/subject/qqyaqctx.html