Hadoop是什么?
Hadoop是一种分布式计算架构,它能够充分利用集群的威力来进行高速计算和存储。
从上面这句话可以看出,Hadoop至少得包括两个部分,一个是存储,一个是计算。
对,Hadoop最为核心的设计分别就是HDFS和Map Reduce。
HDFS(Hadoop distribued file system),hadoop分布式文件系统,用来存储大批量的数据文件。
MapReduce则是一种计算模型,用来计算在HDFS上存储的数据。这个模型最早是由谷歌提出来的,Hadoop就是Apache 基金会在在此基础上开发出来的软件框架。
Hadoop的特点有:
1.高可靠性
2.高扩展性
3.高效性
4.高容错性
5.成本低
Hadoop的典型使用场景
1.日志分析,特别要记住,你的日志数据一定要大,如果只是在GB级别,还是不要用Hadoop
2.搜索引擎
3.机器学习
4.海量数据分布式存储
需要特别注意的是,Hadoop 是基于 MapReduce 模型的,处理海量数据的离线分析工具。对于实时性要求较高的场景,Hadoop就不适用了。另外,Hadoop是把数据存储在磁盘上的,计算时要进行大量的磁盘IO操作,所以性能上会产生问题。
网友评论