Impala--简明调优手册

作者: 撸码小丑 | 来源:发表于2018-12-17 18:24 被阅读26次

Impala--简明调优手册
Nginx负载调优总结
Java垃圾回收手册(五)：GC调优
mysql 二进制包安装
mysql 源码编译安装
mysql RPM包安装
tomcat-容器之apr运行模式
Org-mode 简明手册
hive 参数调优手册
JVM调优

Impala是Cloudera开发、开源的一个原生于Hadoop的交互式SQL引擎。本身Impala的出现并不是为了替代Hive、Pig等现有的、常用的ETL工具。实用的场景往往于商业智能密不可分，比如对数据进行聚合(Aggregation)、做一些简单的分析统计(比如window function)，通过JDBC/ODBC，集成到当今流行的BI工具中，例如Tableau等等。

这篇博文主要来探讨下关于Impala日常使用过程中的需要注意的点，不得不强调的是对于SQL的运行，一方面我们的确需要关注SQL本身的执行性能，比如多久可以执行完毕；但是，SQL的并发更是一个关键的考察点，毕竟我相信对于大部分生产上的集群，用户不止一位，任务也不止一个。另外，随着服务器标配的内存数日益增长，128GB、256GB的机器屡见不鲜，对于如何更加高效使用CPU会成为下一个热点 (CPU Efficiency)。

1. 使用Parquet

这一步一般是默认需要做的，在Impala中，定义Parquet格式数据表的示例：

| create table test_parquet (

id int,

name string

)

stored as parquet

|

2. 不使用压缩

是否压缩需要根据具体的场景而定。如果压缩，推荐使用Snappy。压缩的好处在于HDFS上存储了更少的数据以及在SQL执行期间网络传输了更少的数据。但是解压缩往往带来额外的CPU开销。如果执行的SQL本身是CPU密集型的，压缩就可能未必合适了。在Impala中不使用压缩的示例：

| set compression_codec=none; |

3. 计算统计信息

计算统计信息后，一些简单的聚合计算，比如MAX(...)、COUNT(...)，都可以根据预计算的结果快速相应。另外，Impala在计算Query Plan时也会利用这些统计信息，比如对JOIN顺序进行自动优化。需要注意的是这种自动“优化”并不一定100%带来性能的提升。在Impala中计算统计信息的示例：

| compute stats test_parquet; |

4. HDFS Cache

HDFS允许将常用数据LOCK在内存中，以提高数据读取的效率。使用HDFS Cache时也要考虑权衡。毕竟这部分内存会被LOCK住，使得这部分内存无法在Impala计算过程中使用。因此，这一特征的使用要慎重，建议在某一数据被非常频繁地读取时考虑使用。在Impala中，使用HDFS Cache的示例：

| hdfs cacheadmin -addPool impala_pool -owner impala -limit 4000000000

create table test_parquet (
 id int,
 name string
)
stored as parquest;

alter table test_parquet set cached in 'impala_pool';
alter table test_parquet set uncached; |

5. 保持JOIN顺序

一般情况下，COMPUTE STATS会对JOIN的顺序进行自动优化。但是这个自动“优化”并不一定保证对所有的SQL都带来性能的提升 (需要测试)。对于那些性能下降的SQL，可以使用STRAIGHT_JOIN保证Impala在计算Query Plan保持原有的JOIN顺序。在Impala中，使用STRAIGHT_JOIN的示例：

| select STRAIGHT_JOIN id, name
from test_parquet t inner join other_parquet o
on t.id = o.id |

6. SQL Hint指定JOIN方式

SQL JOIN过程涉及数据的网络传输，Impala支持两种模式BROADCAST与SHUFFLE，Impala会根据表的大小选择合适的模式，如果需要显示指定特定模式，Impala可以使用Hint，示例如下：

| select id, name
from test_parquet t join [SHUFFLE] other_parquet o
on t.id = o.id;

select id, name
from test_parquet t join [BROADCAST] other_parquet o
on t.id = o.id; |

7. Impala Admission Control并发度设置

默认情况下，Impala允许20个SQL并行执行，如果用户提交超过20个SQL，比如提交30个SQL，剩余的10个SQL会放到queue中等待空闲资源。如果等待时间超过60s，等待的SQL会被自动KILL掉。然而，在实际应用时，客户可能希望所有提交的SQL都可以顺利执行完毕，因此无论客户同时提交多少个SQL请求，都需要缓存(queue)起来。

接着让我们看看如何对并发性进行控制：

设置动态资源池