美文网首页
Hadoop 简介

Hadoop 简介

作者: 珺王不早朝 | 来源:发表于2021-04-21 17:39 被阅读0次

1. 定义


狭义上讲,Hadoop 是一个分布式的 数据存储与数据计算 框架,主要包括:

广义上 Hadoop 指的是 Hadoop 生态圈,主要包括(但不限于)以下技术栈:

  • Hadoop 分布式数据存储计算框架
  • Hive 数据仓库工具
  • HBase 海量列式非关系型数据库
  • Flume 数据采集工具
  • Sqoop ETL 工具
  • Kafka 高吞吐消息中间件

2. 起源


创造者:道 • 卡丁(Doug Cutting)
参考了Google的三篇论文:

  • GFS:Google的分布式文件系统(Google File System)
  • MapReduce:Google的分布式计算框架
  • BigTable:大型分布式数据库

演变关系:

  • GFS --> HDFS
  • MapReduce --> MapReduce
  • BigTable --> HBase

3. 发行版本


市面上常见的 Hadoop 发行版有以下 3 种:

  1. Apache Hadoop
    下载地址:http://hadoop.apache.org/
    原生版本 -- 适合用于学习
    优点:开源贡献者多、更新快、参考资料多(适用于学习)
    缺点:版本管理比较混乱,版本之间兼容性差
  2. CDH (Cloudera's Distribution including Apache Hadoop)
    官网地址:https://www.cloudera.com/
    收费版本 -- 适合生产环境中使用
    优点:生态圈内各框架版本标准化,解决了版本兼容性问题
  3. HDP (Hortonworks Data Platform)
    官网地址:https://hortonworks.com/
    开源版本 -- 但不常用
    优点:开源 + web 管理界面
Apache Hadoop 主要版本
  • 0.x 系列版本:Hadoop当中最早的⼀个开源版本,在此基础上演变⽽来的1.x以及2.x的版本
  • 1.x 版本系列:Hadoop版本当中的第⼆代开源版本,主要修复0.x版本的⼀些bug等
  • 2.x 版本系列:架构产⽣重⼤变化,引⼊了yarn平台等许多新特性
  • 3.x 版本系列:EC技术、YARN的时间轴服务等新特性

4. Hadoop 优缺点


优点:
  • 高可用
      • 数据存储 --> 高可靠的数据存储机制(HDFS 副本机制)
      • 数据计算 --> 高容错的任务分配机制(Yarn 调度机制)
  • 高扩展性
      分布式框架的共性优势
  • 高效性
      这里主要是指 Hadoop 框架具有极强的 数据处理能力
      数据处理能力主要是指在集群各节点间移动数据、使各节点保持动态平衡的能力
缺点:
  • 不支持 低延迟数据访问 -- 计算速度较慢,不能快速地返回数据
  • 不擅长 存储大量小文件 -- 大量小文件浪费内存资源
  • 不支持 文件的任意修改 -- 支持追加写入

上一篇:大数据学习笔记目录

下一篇:Apache Hadoop

相关文章

  • java大数据之hadoop

    一、Hadoop简介 1.1 Hadoop是什么 The Apache Hadoop project develo...

  • 大数据技术原理与应用:大数据处理架构Hadoop生态圈

    Hadoop生态圈 概述 Hadoop简介什么是Apache hadoop?Apache Hadoop项目是以可靠...

  • Hadoop简介

    什么是hadoop hadoop是apache下的一款开源分布式大数据处理框架,通过多台廉价机器搭建集群的方式 ,...

  • Hadoop简介

    Hadoop是一个Apache基金会所开发的分布式系统基础架构,具有高容错、高可靠性、高扩展性、高效、低成本等特点...

  • Hadoop简介

    从数据爆炸开始。。。 一、 第三次工业革命 第一次:18世纪60年代,手工工厂向机器大生产过渡,以蒸汽机的发明...

  • Hadoop简介

    Hadoop 介绍 Hadoop是Apache组织的一个分布式计算框架(java语言),其最核心的设计就是:HDF...

  • Hadoop简介

    Hadoop概述开源分布式计算平台,以HDFS、MapReduce为核心,为用户提供了系统底层细节透明的分布式基础...

  • hadoop简介

    Hadoop简介 *Hadoop 擅长处理一次写入,多次读出的数据 hadoop两大核心组件是 HDFS 和 ma...

  • Hadoop简介

    Hadoop产生的意义 随着信息社会的进步,信息数据的激增,海量数据的存储和分析成为难题,即使硬盘的存储容量不断提...

  • Hadoop简介

    1. Hadoop简介 由于几乎所有的书中都会提到Hadoop的发展史, 这里就不说Hadoop的历史时间线了. ...

网友评论

      本文标题:Hadoop 简介

      本文链接:https://www.haomeiwen.com/subject/rhfzlltx.html