美文网首页超级大数据
大数据入门(一)

大数据入门(一)

作者: 裘马轻狂大帅 | 来源:发表于2019-05-30 07:14 被阅读9次

         源自于谷歌的MapReduce论文,"Hadoop Map/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。"Hadoop将MapReduce高度抽象为两个阶段:Map阶段和Reduce阶段,每个阶段都以Key/Value对作为过程的输入和输出,并可以由程序员自己选择他们的类型。

     Hadoop是一个由Apache基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算与存储,具有可靠、高效、可伸缩的特点:

    • 高可靠性:提供按位处理的存储和计算能力值得用户信赖。

    • 高扩展性:可以轻松地从小量集群扩展到数以千计的节点中。

    • 高效性:提供并发的分布式计算框架,处理速度非常快。

    • 高容错性:即使在少量节点宕机的情况下,也能自动完成任务。

    Hadoop的核心是YARN,HDFS,Mapreduce。源自谷歌的GFS论文,发表于2013年10月,HDFS是GFS的克隆版,HDFS是Hadoop体系中数据存储管理的基础,它是一个高度容错的系统,能检测和应对硬件故障。

    HDFS简化了文件一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序,它提供了一次写入多次读取的机制,数据以块的形式,同时分布在集群不同物理机器。

    相关文章

      网友评论

        本文标题:大数据入门(一)

        本文链接:https://www.haomeiwen.com/subject/zhbptctx.html