Hadoop概述.md

作者: Starlightskm | 来源:发表于2019-04-28 16:59 被阅读0次

    Hadoop概述

    背景

    三大论文:

    • GFS:HDFS

    • MapReduce

    • Bigtable:HBASE

    什么是hadoop

    官网:http://hadoop.apache.org/

    • 开源的:免费

    • 可靠的:及时进行数据备份,及时恢复数据

    • 可扩展:对一个大的集群,机器的动态增减不会影响集群的运行

    • 分布式计算:并行处理

    解决的问题

    • 海量数据的存储:HDFS

      • 存储海量数据

      • 动态添加机器

      • 备份(默认三份,可自定义)

      • 当数据文件损坏时,快速恢复

    • 海量数据分析: Mapreduce

      • 海量

      • 核心理念:分而治之

    • 对集群资源的管理和任务调度: Yarn

      • 资源管理:CPU,内存

      • 任务调度:合理安排任务去分配资源,保证集群健康

    Hadoop的特点

    • 扩容能力强

    • 成本低:普通pc都可以当做node

    • 高效率:速度快

    • 可靠性:备份

    应用场景

    • 日志分析

    • 推荐系统

    • GPS导航分析

    生态圈

    image.png

    Hadoop的核心内容

    • Hadoop Common

    • HDFS

    • YARN

    • MapReduce

    相关文章

      网友评论

        本文标题:Hadoop概述.md

        本文链接:https://www.haomeiwen.com/subject/yzrjnqtx.html