美文网首页大数据玩转大数据架构师+大数据
程序员必备大数据技能之分布式云平台Hadoop

程序员必备大数据技能之分布式云平台Hadoop

作者: A尚学堂Nancy老师 | 来源:发表于2018-08-31 21:45 被阅读3次

    一、Hadoop创始人介绍

    Hadoop作者Doug cutting,就职Yahoo期间开发了Hadoop项目,目前在Cloudera 公司从事架构工作。

    二、Hadoop简介

    Hadoop名字来源于Doug Cutting儿子的玩具大象。

    2003-2004年,Google公开了部分GFS和Mapreduce思想的细节,以此为基础Doug Cutting等人用了2年业余时间实现了DFS和Mapreduce机制,一个微缩版:Nutch

    Hadoop 于 2005 年秋天作为 Lucene的子项目 Nutch的一部分正式引入Apache基金会。2006 年 3 月份,Map-Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目。

    三、Hadoop简介:http://hadoop.apache.org

    分布式存储系统HDFS (Hadoop Distributed File System )POSIX

    ☆分布式存储系统

    ☆ 提供了 高可靠性、高扩展性和高吞吐率的数据存储服务

    分布式计算框架MapReduce

    ☆分布式计算框架(计算向数据移动)

    ☆具有 易于编程、高容错性和高扩展性等优点。

    分布式资源管理框架YARN(Yet Another Resource Management)

    ☆负责集群资源的管理和调度

    Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

    四、Hadoop架构模型

    *文件元数据MetaData,文件数据

    ·元数据

    ·数据本身

    *(主)NameNode节点保存文件元数据:单节点 posix

    *(从)DataNode节点保存文件Block数据:多节点

    *DataNode与NameNode保持心跳,提交Block列表

    *HdfsClient与NameNode交互元数据信息

    *HdfsClient与DataNode交互文件Block数据

    五、Hadoop解决哪些问题?

    海量数据需要及时分析和处理

    海量数据需要深入分析和挖掘

    数据需要长期保存

    海量数据存储的问题:

    磁盘IO称为一种瓶颈,而非CPU资源

    网络带宽是一种稀缺资源

    硬件故障成为影响稳定的一大因素

    六、Hadoop 相关技术

    (1)Hbase

    Nosql数据库,Key-Value存储

    最大化利用内存

    (2)HDFS

    hadoop distribute file system(分布式文件系统)

    最大化利用磁盘

    (3)MapReduce

    编程模型,主要用来做数据分析

    最大化利用CPU

    七、Hadoop的优点

    Hadoop的四大特性(优点)

    扩容能力(Scalable):Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可用方便的扩展到数以千计个节点中。

    成本低(Economical):Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低。

    高效率(Efficient):通过并发数据,Hadoop可以在节点之间动态并行的移动数据,使得速度非常快。

    可靠性(Rellable):能自动维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。所以Hadoop的按位存储和处理数据的能力值得人们信赖。

    Freestyle

    通过真实企业项目,掌握 JAVA 高并发、负载均衡、NoSQL、服务器集群、性能优化、数据库集群等架构师技能,实现年薪翻番。

    需要视频资料版本,私信小编!!!免费领取全套Hadoop资料!!!

    相关文章

      网友评论

        本文标题:程序员必备大数据技能之分布式云平台Hadoop

        本文链接:https://www.haomeiwen.com/subject/lowewftx.html