一、了解Hadoop是什么
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
二、Hadoop的特征
Hadoop是什么:分布式存储+分布式、可拓展计算平台
Hadoop能做什么:搭建大型数据仓库、PB级数据存储、处理、分析
Hadoop优势:高可靠性、低成本、搞拓展、成熟的生态圈、囊括了大数据处理的方方面面
狭义的Hadoop:是一个适合大数据分布式存储(HDFS)、分布式计算(MapReduce)和资源调度(YARN)的平台
广义的Hadoop:指的是hadoop的整个生态系统,Hadoop生态系统是一个很庞大的概念,hadoop是其中一个重要的基础部分,生态系统中的每一个子系统只解决某一个特定的问题域
Hadoop包括哪些模块
hadoop common
hadoop distributed file system(hdfs)负责数据存储
hadoop yarn 负责作业调度与集群资源管理
hadoop MapReduce 基于yarn系统之上可以并行处理大数据计算
如果大家对于学习大数据有任何问题,学习方法,学习路线,如何学习有效率的问题,可以随时来咨询我,或者缺少系统学习资料的,我做这行年头比较久,自认为还是比较有经验的,可以帮助大家提出建设性建议,这是我的大数据交流qun:511715772,有任何问题可以随时来咨询我。
关注微信公众号“程序员OfHome”,发送“领取资料”可以免费领取视频资料。
三、Hadoop的推荐学习路线
1) Hadoop生态环境介绍
2) Hadoop云计算中的位置和关系
3) 国内外Hadoop应用案例介绍
4) Hadoop 概念、版本、历史
5) Hadoop 核心组成介绍及hdfs、mapreduce 体系结构
6) Hadoop 的集群结构
7) Hadoop 伪分布的详细安装步骤
8) 通过命令行和浏览器观察hadoop
9) HDFS底层工作原理
10) HDFS datanode,namenode详解
11) Hdfs shell
12) Hdfs java api
13) Mapreduce四个阶段介绍
14) Writable
15) InputSplit和OutputSplit
16) Maptask
17) Shuffle:Sort,Partitioner,Group,Combiner
18) Reducer
19) 二次排序
20) 倒排序索引
21) zui优路径
22) 电信数据挖掘之-----移动轨迹预测分析(中国棱镜计划)
23) 社交好友推荐算法
24) 互联网精准广告推送 算法
25) 阿里巴巴天池大数据竞赛 《天猫推荐算法》案例
26) Mapreduce实战pagerank算法
27) Hadoop2.x集群结构体系介绍
28) Hadoop2.x集群搭建
29) NameNode的高可用性(HA)
30) HDFS Federation
31) ResourceManager 的高可用性(HA)
32) Hadoop集群常见问题和解决方法
33) Hadoop集群管理
PS:
关注微信公众号“程序员OfHome”,发送“领取资料”可以免费领取视频资料。
对大数据感兴趣的朋友可以加入到我们的大数据交流群:511715772 群里有都是从事或者在学习大数据的朋友,在此我也邀请你进群一起学习,群内没有广告,也是禁止打广告的,大家也可以关注一下我的微信公共号“程序员OfHome”下方扫扫可关注。
网友评论