Hadoop初探

作者: 北你妹的风 | 来源:发表于2016-10-20 17:50 被阅读19次

    Hadoop是什么?

    Hadoop是一种分布式计算架构,它能够充分利用集群的威力来进行高速计算和存储。

    从上面这句话可以看出,Hadoop至少得包括两个部分,一个是存储,一个是计算。

    对,Hadoop最为核心的设计分别就是HDFS和Map Reduce。

    HDFS(Hadoop distribued file system),hadoop分布式文件系统,用来存储大批量的数据文件。

    MapReduce则是一种计算模型,用来计算在HDFS上存储的数据。这个模型最早是由谷歌提出来的,Hadoop就是Apache 基金会在在此基础上开发出来的软件框架。

    Hadoop的特点有:

    1.高可靠性

    2.高扩展性

    3.高效性

    4.高容错性

    5.成本低

    Hadoop的典型使用场景

    1.日志分析,特别要记住,你的日志数据一定要大,如果只是在GB级别,还是不要用Hadoop

    2.搜索引擎

    3.机器学习

    4.海量数据分布式存储

    需要特别注意的是,Hadoop 是基于 MapReduce 模型的,处理海量数据的离线分析工具。对于实时性要求较高的场景,Hadoop就不适用了。另外,Hadoop是把数据存储在磁盘上的,计算时要进行大量的磁盘IO操作,所以性能上会产生问题。

    相关文章

      网友评论

        本文标题:Hadoop初探

        本文链接:https://www.haomeiwen.com/subject/pqofuttx.html