MPP与Hadoop之间的关系是什么？

作者: 丨程序之道丨 | 来源:发表于2019-03-27 19:29 被阅读51次

MPP与Hadoop之间的关系是什么？
impala 概念及其特性
Hadoop vs MPP
了解MPP数据库/MPP与Hadoop区别
企业该选择什么架构建立数据仓库（Oracle、mpp、hadoo
Hive本质1大数据和Hive概述
大数据与Hadoop之间是什么关系？
大数据与Hadoop之间是什么关系
大数据与Hadoop之间是什么关系？
SQL on Hadoop技术综述

广义的Hadoop包括 Impala, Presto | Distributed SQL Query Engine for Big Data

这些MPP架构的SQL引擎。Hadoop社区还在持续发展，Spark还在持续给人们带来惊喜，开源软件的迷人之处也在于此。

先从NUMA说起吧，NUMA全称为Non-Uniform Memory Access，是主流服务服务器为了提高SMP的可扩展性而采用的一种体系结构。主流服务器一般由多个NUMA节点组成，每个NUMA节点是一个SMP结构，一般由多个CPU组成，并且具有本地内存和IO设备。NUMA节点可以直接访问本地内存，也可以通过NUMA互联模块访问其他NUMA节点的内存，但是访问本地内存的速度远远高于远程访问速度，因此，开发程序要尽量减少不同NUMA节点之间的信息交互。

MPP是一种海量数据实时分析架构。 MPP作为一种不共享架构，每个节点运行自己的操作系统和数据库等，节点之间信息交互只能通过网络连接实现。MPP架构目前被并行数据库广泛采用，一般通过scan、sort和merge等操作符实时返回查询结果。目前采用MPP架构的实时查询系统有EMC Greenplum、HP Vertica和Google Dremel，这些都是实时数据处理领域非常有特点的系统，尤其是Dremel可以轻松扩展到上千台服务器，并在数秒内完成TB级数据的分析。

Hadoop作为一个开源项目群本身和MPP并没有什么直接关系，Hadoop中的子项目MapReduce虽然也是做数据分析处理的，但是一般只适用于离线数据分析，区别与MPP较为明显。因为Map和Reduce两个过程涉及到输出文件的存取和大量网络传输，因此往往达不到实时处理的要求。与MapReduce 相似的系统还有Microsoft Dryad和Google pregel。

综上所述，NUMA是一种体系结构，MPP是一种实时海量数据分析架构，而Hadoop是一个关于数据存储处理的项目群，其中的MapReduce是一种离线海量数据分析架构。

实测对比GreenPlum和Hive，GP比Hive性能高出至少一个数量级，但是大部分场景下，依然是秒级甚至分钟级的延迟，距离具体通常意义的实时毫秒级，差距巨大。

另外说一句，广义的Hadoop包括Impala,Presto | Distributed SQL Query Engine for Big Data 这些MPP架构的SQL引擎。Hadoop社区还在持续发展，Spark还在持续给人们带来惊喜，开源软件的迷人之处也在于此。

在此我向大家推荐一个大数据开发交流圈：658558542 （☛点击即可加入群聊）里面整理了一大份学习资料，全都是些干货，包括大数据技术入门，大数据离线处理、数据实时处理、Hadoop 、Spark、Flink、推荐系统算法以及源码解析等，送给每一位大数据小伙伴，让自学更轻松。这里不止是小白聚集地，还有大牛在线解答！欢迎初学和进阶中的小伙伴一起进群学习交流，共同进步！

MPP与Hadoop之间的关系是什么？
广义的Hadoop包括 Impala, Presto | Distributed SQL Query Engine...
impala 概念及其特性
impala是什么？ Impala是用于处理存储在Hadoop集群中的大量数据的MPP（大规模并行处理）SQL查询...
Hadoop vs MPP
Over the latest time I’ve heard many discussions on t...
了解MPP数据库/MPP与Hadoop区别
什么是MPP？ MPP (Massively Parallel Processing)，即大规模并行处理。简单来说...
企业该选择什么架构建立数据仓库（Oracle、mpp、hadoo
目前做数据仓库的基本都是采用Oracle、mpp、hadoop这三种方案比较多，mpp数据库主要有teradata...
Hive本质1大数据和Hive概述
关系和NoSQL数据库与Hadoop 为了更好地理解关系数据库，NoSQL数据库和Hadoop之间的差异，让我们将...
大数据与Hadoop之间是什么关系？
大数据目前分为四大块：大数据技术、大数据工程、大数据科学和大数据应用。其中云计算是属于大数据技术的范畴，是一种通过...
大数据与Hadoop之间是什么关系
广义上讲大数据是时代发展和技术进步的产物。Hadoop只是一种处理大数据的技术手段。“大数据”概念在1980年由...
大数据与Hadoop之间是什么关系？
广义上讲大数据是时代发展和技术进步的产物。Hadoop只是一种处理大数据的技术手段。“大数据”概念在1980年由...
SQL on Hadoop技术综述
SQL on Hadoop技术综述一、系统架构 runtime framework v.s. mpp 在SQL ...