美文网首页
大数据论文学习《Dremel》

大数据论文学习《Dremel》

作者: 阿猫阿狗Hakuna | 来源:发表于2022-02-09 22:25 被阅读0次
    --- 极客时间 《大数据经典论文解读》学习

    Dremel相比于MapReduce,其数据检索速度快了一个数量级。它的核心思路是以下四条:

    • 让计算节点和存储节点放在同一台Server上;

    • 进程常驻,做好缓存,确保不会用大量时间做冷启动;

    • 树状架构,多层聚合,这样可以让单个节点响应时间和计算量都较小,能够快速拿到返回结果。

    • 即使不适用GFS,数据也会复制三份存放到不同节点。计算过程中,Dremel会监测各叶子Server的执行进度,对于落后的计算节点,会调度到其他计算节点。(MR 推测执行)


      5D947EF6-E928-4337-B7C9-744F5B75C0D9.jpg

      中间层服务器最主要的功能是帮我们把数据归并的工作并行化了。

      Dremel借鉴了MPP数据库,把计算和存储节点放在一起;
      通过行列混合方式,完成了数据的并行运算,缩减了需要扫描的数据量;
      通过借鉴搜索引擎的分布式索引系统,搭建了一个树形多层的服务器架构,通过中间层服务器进行数据聚合,减少计算延时;
      同时,借鉴了MapReduce的推测执行机制,抛弃掉队者节点的任务。

    相关文章

      网友评论

          本文标题:大数据论文学习《Dremel》

          本文链接:https://www.haomeiwen.com/subject/estvhrtx.html