Impala与Hive的比较

作者: 盛开的茉莉 | 来源:发表于2016-07-21 15:03 被阅读3444次

Impala从入门到放弃-V1.0
Impala与Hive的比较
浅谈交互式查询⼯工具Impala(一)
Impala 适配 Hadoop生态圈
hive 常见问题汇总
浅谈交互式查询⼯工具Impala(二)
Impala - Impala和Hive的关系
Impala数据加载与查询
Centos7+安装Impala
Impala与Hive混合使用的一个深坑

1. Impala架构

Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具，Impala没有再使用缓慢的Hive+MapReduce批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎（由Query Planner、Query Coordinator和Query Exec Engine三部分组成），可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据，从而大大降低了延迟。其架构如图 1所示，Impala主要由Impalad， State Store和CLI组成。

2. 与Hive的关系

Impala与Hive都是构建在Hadoop之上的数据查询工具各有不同的侧重适应面，但从客户端使用来看Impala与Hive有很多的共同之处，如数据表元数据、ODBC/JDBC驱动、SQL语法、灵活的文件格式、存储资源池等。Impala与Hive在Hadoop中的关系如图 2所示。Hive适合于长时间的批处理查询分析，而Impala适合于实时交互式SQL查询，Impala给数据分析人员提供了快速实验、验证想法的大数据分析工具。可以先使用hive进行数据转换处理，之后使用Impala在Hive处理后的结果数据集上进行快速的数据分析。