--- 极客时间 《大数据经典论文解读》学习
Dremel相比于MapReduce,其数据检索速度快了一个数量级。它的核心思路是以下四条:
-
让计算节点和存储节点放在同一台Server上;
-
进程常驻,做好缓存,确保不会用大量时间做冷启动;
-
树状架构,多层聚合,这样可以让单个节点响应时间和计算量都较小,能够快速拿到返回结果。
-
即使不适用GFS,数据也会复制三份存放到不同节点。计算过程中,Dremel会监测各叶子Server的执行进度,对于落后的计算节点,会调度到其他计算节点。(MR 推测执行)
5D947EF6-E928-4337-B7C9-744F5B75C0D9.jpg
中间层服务器最主要的功能是帮我们把数据归并的工作并行化了。
Dremel借鉴了MPP数据库,把计算和存储节点放在一起;
通过行列混合方式,完成了数据的并行运算,缩减了需要扫描的数据量;
通过借鉴搜索引擎的分布式索引系统,搭建了一个树形多层的服务器架构,通过中间层服务器进行数据聚合,减少计算延时;
同时,借鉴了MapReduce的推测执行机制,抛弃掉队者节点的任务。
网友评论