美文网首页
第一章:初识Hadoop

第一章:初识Hadoop

作者: _rui_ | 来源:发表于2018-10-26 15:26 被阅读0次

    1.2数据存储与分析

    数据量增大,使得传统的数据读写速度跟不上,需要通过分布式存储提高读写速度。

    分布式读写数据需要解决以下两个问题

    1.2.1、硬件故障问题

    RAID

    HDFS

    1.2.2、大多数分析任务需要以某种方式结合大部分数据来共同完成分析

    MapReduce·

    1.3 与Hadoop协同工作的处理模式

    Interactive SQL(交互式SQL)

    Iterative processing (迭代处理)

    Stream processing (流处理)

    Search(搜索)

    1.4与其他数据库的区别


    1.4.1与关系型数据库的区别

    关系型数据库的数据访问模式包含大量的硬盘寻址,而寻址时间的提升远远不敌于传输速率的提升,在读取大量数据集就会花更长的时间,而流数据读取模式的速度主要取决于传输速率。

    但是如果只更新一小部分记录,那么传统的B树结构更有优势,当大量数据更新时,B树效率明显落户与MapReduce,因为B树需要重建。

    MapReduce适合解决需要以批处理方式分析整个数据集的问题,RDBMS适合于索引后数据集的点查询和更新。

    MapReduce适合一次写入,多次读取数据的应用,关系型数据库则适合持续更新的数据集。

    Hadoop更适合非结构化的数据,处理数据时才对数据进行解释。


                                   传统的关系型数据库         MapReduce

    数据大小                 GB                                     PB


    数据存取                 交互式和批处理                  批处理


    更新                         多次读/写                            一次写入,多次读取


    事务                         ACID                                  无


    结构                         写时模式                              读时模式


    完整性                      高                                          低


    横向扩展                   非线性的                               线性的


    1.4.2 网格计算

    Hadoop尽量在计算节点上存储数据,以实现数据的本地快速访问。

    1.4.3志愿计算

    志愿计算的是CPU周期

    相关文章

      网友评论

          本文标题:第一章:初识Hadoop

          本文链接:https://www.haomeiwen.com/subject/unkktqtx.html