阿里巴巴采用了 15 个节点组成的 Hadoop 集群,用于处理从数据库中导出的商业数据的排序和组合。
Ebay 使用了 32 个节点组成的集群,包括 8 * 532 个计算核心以及 5.3 PB 的存储。
Facebook 主要使用 Hadoop 来存储内部日志和结构化数据源的副本,并且将其作为数据报告、数据分析和机器学习的数据源。
随着央视新闻天天说大数据,很多人纷纷开始关注大数据和Hadoop以及数据挖掘和数据可视化了。什么是Hadoop?
Apache Hadoop 是一款支持数据密集型分布式应用并以 Apache 2.0 许可协议发布的开源软件框架。Hadoop 框架透明地为应用提供可靠性和数据移动。它实现了名为 MapReduce 的编程范式:应用程序被分割成许多小部分,而每个部分都能在集群中的任意节点上执行或重新执行。
Hadoop市场现状
开发人才目前比较匮乏,基本都集中在互联网。维护人才我觉得互联网外的行业一段时间内基本不用考虑,不是太多了,而是根本没有。Hadoop和云计算最后拼的就是运维,大规模分布式系统的运维人才极难培养。
Hadoop版本的选择
目前为止,作为半只脚迈进Hadoop大门的人,我建议大家还是选择Hadoop 2.x用。
Hadoop2相比较于Hadoop1.x来说,HDFS的架构与MapReduce的都有较大的变化,且速度上和可用性上都有了很大的提高,Hadoop2中有两个重要的变更:
-
HDFS的NameNodes可以以集群的方式布署,增强了NameNodes的水平扩展能力和可用性;
-
MapReduce将JobTracker中的资源管理及任务生命周期管理(包括定时触发及监控),拆分成两个独立的组件,并更名为YARN(Yet Another Resource Negotiator)。
核心概念
Hadoop 项目主要包含了以下四个模块:
-
Hadoop 通用模块(Hadoop Common): 为其他 Hadoop 模块提供支持的公共实用程序。
-
Hadoop 分布式文件系统(HDFS, Hadoop Distributed File System):提供对应用程序数据的高吞吐量访问的分布式文件系统。
-
Hadoop YARN: 任务调度和集群资源管理框架。
-
Hadoop MapReduce: 基于 YARN 的大规模数据集并行计算框架。
对于初次学习 Hadoop 的用户而言,应重点关注 HDFS 和 MapReduce。作为一个分布式计算框架,HDFS 承载了该框架对于数据的存储需求,而 MapReduce 满足了该框架对于数据的计算需求。
下图是 Hadoop 集群的基本架构:
部署 Hadoop
Hadoop 主要有以下三种部署模式:
单机模式:在单台计算机上以单个进程的模式运行。
伪分布式模式:在单台计算机上以多个进程的模式运行。该模式可以在单节点下模拟“多节点”的场景。
完全分布式模式:在多台计算机上分别以单个进程的模式运行。
具体的部署步骤以及详细的教程大家可以戳我查看。
今天跟大家分享的这个教程,主要包含以下知识点:
实验1:Hadoop 简介与安装部署
挑战1:Hadoop 系统部署
实验2:HDFS 架构与操作
实验3:MapReduce 原理与实践
挑战2:使用 MapReduce 进行日志分析
实验4:YARN 架构
挑战3:用 Hadoop 计算圆周率
实验5:HBase 基础
挑战4:HBase 数据导入
实验6:Sqoop 数据迁移
挑战5:HBase 实现 Web 日志场景数据处理
实验7:Solr 基础实战
实验8:Hive 基础实战
挑战6:导入数据到 Hive
实验9:Flume 基础实战
实验10:Flume、HDFS 和 Hive 实现日志收集和分析
挑战7:用 Flume 和 MapReduce 进行日志分析
实验11:Kafka 基础实战
挑战8:按需部署 Kafka
实验12:使用 Flume 和 Kafka 实现实时日志收集
实验13:Pig 基础实战
关于该教程的学习,你需要有一定的计算机基础和 Java 基础,并且对 Hadoop 感兴趣。这个原本是我们的收费教程,原价349元,限时折扣价149元。
- 上班族土豪可以戳这里直接购买学习。
- 学生党可以关注实验楼微信公众号(实验楼),回复暗号“Hadoop”免费领取。
好啦,大家加油学习哦。
"过一个平凡无趣的人生实在太容易了,你可以不读书,不冒险,不运动,不写作,不折腾。但是,人生最后悔的事情就是:我本可以。"
网友评论