大数据学习day_2
作者:
Sakura_P | 来源:发表于
2017-07-19 01:18 被阅读0次
思考问题
hadoop是什么?
- hadoop是一个由Apache基金会所开发的支持数据密集型分布式系统的基础架构。
- hadoop特点是可以让用户在不了解分布式底层细节的情况下,开发分布式程序;能够利用集群的威力进行高速运算和存储。
hadoop有哪些部分构成?
- hadoop框架地为应用提供可靠性和数据移动。核心设计就是HDFS(Hadoop Distributed File System) 和 MapReduce。
- hadoop实现了MapReduce的编程范式:应用程序被分区成许多小部分,而每个部分都能在集群中的任意节点上运行或重新运行。
- hadoop还提供了分布式文件系统,用以存储所有的计算节点的数据,这为整个集群带来了非常高的带宽。
- 子项目介绍
--Hadoop Common
Hadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文件和日志操作等。
--Avro
Avro是doug cutting主持的RPC项目,有点类似Google的protobuf和Facebook的thrift。avro用来做以后hadoop的RPC,使hadoop的RPC模块通信速度更快、数据结构更紧凑。
--Chukwa
Chukwa是基于Hadoop的大集群监控系统,由yahoo贡献。
--HBase
基于Hadoop Distributed File System,是一个开源的,基于列存储模型的分布式数据库。
--HDFS
分布式文件系统
--Hive
hive类似CloudBase,也是基于hadoop分布式计算平台上的提供data warehouse的sql功能的一套软件。使得存储在hadoop里面的海量数据的汇总,即席查询简单化。hive提供了一套QL的查询语言,以sql为基础,使用起来很方便。
--MapReduce
实现了MapReduce编程框架
--Pig
Pig是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。Yahoo网格运算部门开发的又一个克隆Google的项目Sawzall。
--ZooKeeper
Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。
hadoop主要工具有哪些?
不是很理解题目意思
hadoop开源工具集合学习链接
http://blog.csdn.net/zyj8170/article/details/72636959
本文标题:大数据学习day_2
本文链接:https://www.haomeiwen.com/subject/jsukkxtx.html
网友评论