美文网首页
Impala的命令COMPUTE STATS(计算统计报表)

Impala的命令COMPUTE STATS(计算统计报表)

作者: 高桥my | 来源:发表于2021-07-21 20:35 被阅读0次

今天我分享的内容是关于Impala写查询调优新发现的命令COMPUTE STATS。这个命令执行过后让我十几分钟才跑出数据的单个sql变成19秒就跑出整个业务sql的效果。出类拔萃高效的命令引起了大家的注意,因而就引来了大家对这个compute state命令的探索。项目迭代中用Impala逐步替换原有的Hive作为查询组件,速度有了脱胎换骨的飞跃。但在把原先按列存储的表转换成两个按行存储的表之后,联表查询的表现不那么给力了(原先对Hive的十倍速度优势变成了两倍)。这里我们就需要认识一个COMPUTE STATS的命令。下面内容主要包括COMPUTE STATS的主要作用、语法、使用说明、重要标注、注意事项、等各个部分讲解这个简单高效的命令。

COMPUTE STATS主要作用:

收集有关表中数据的容量和分布以及所有相关列和分区的信息。这些信息存储在metastore数据库中,Impala使用这些信息来帮助优化查询。例如,如果Impala可以确定一个表是大是小,或者有很多或很少不同的值,它就可以为一个连接查询或插入操作适当地组织并行化工作。

语法:

COMPUTE STATS [db_name.]table_name

COMPUTE INCREMENTAL STATS [db_name.]table_name [PARTITION (partition_spec)]

使用说明:

(PARTITION)只允许分区子句与增量子句组合使用。对于计算增量统计,它是可选的,对于删除增量统计,它是必需的。当您在COMPUTE INCREMENTAL STATS或DROP INCREMENTAL STATS语句中通过PARTITION (partition_spec)子句指定分区时,必须在规范中包含所有分区列,并为所有分区键列指定常量值。

最初,Impala依赖于用户来运行Hive分析表语句,但是这种收集统计数据的方法被证明是不可靠且难以使用的。Impala COMPUTE STATS语句从头开始构建,以提高该操作的可靠性和用户友好性。COMPUTE STATS不需要任何设置步骤或特殊配置。您只运行一个Impala COMPUTE STATS语句来收集表和列的统计信息,而不是针对每种统计信息分别运行Hive ANALYZE表语句。

COMPUTE INCREMENTAL STATS变体是分区表的快捷方式,它只在分区的一个子集上工作,而不是整个表。增量特性使它适合于具有许多分区的大型表,在这些表中,每次添加或删除一个分区时,完整的COMPUTE STATS操作都要花费很长时间。有关详细使用情况,请参见增量统计的概述。

重要标注

对于特定的表,请使用或使用,但切勿将两者组合或它们之间的交替。如果您在表的使用寿命内切换到表,反之亦然,请在切换前通过运行来删除所有统计数据。

当您第一次在表上运行时,无论表是否已经有统计数据,统计数据都会从头开始重新计算。因此,在给定表上首次运行时,需要一次性资源密集型操作来扫描整个表。

在Impala 3.0和更低,缓存需要每个分区每列约400字节的元数据。具有大量分区和许多列的表可以加起来,在头顶上具有显著的内存,因为元数据必须缓存在目录主机上以及每个有资格成为协调员的impalad主机上。如果所有表的元数据超过 2 GB,则可能会遇到服务停机。在 Impala 3.1 及更高地区,通过改进对增量统计数据的处理,缓解了问题。

COMPUTE INCREMENTAL STATS仅适用于分区表。如果对未分区表使用INCREMENTAL子句,Impala会自动使用原始的COMPUTE STATS语句。这样的表在显示表stats输出的Incremental stats列下显示false。

注意:

由于许多性能最关键、资源最密集的操作都依赖于表和列统计信息来构建准确、高效的计划,因此计算统计信息是ETL过程最后的一个重要步骤。在慢速查询的性能调优期间,或在内存不足的情况下进行故障排除时,第一步是在所有表上运行COMPUTE STATS:

-----准确的统计数据有助于Impala为连接查询构建高效的查询计划,提高性能并减少内存使用。

-----准确的统计数据有助于Impala有效地将插入操作分配到拼花表中,提高性能并减少内存使用。

-----准确的统计数据可以帮助Impala估计每个查询所需的内存,这在使用资源管理特性(如许可控制和纱线资源管理框架)时非常重要。统计数据帮助Impala实现高并发性,充分利用可用内存,避免与其他Hadoop组件的工作负载争用。

复杂类型的考虑:

目前,COMPUTE STATS语句创建的统计信息不包括关于复杂类型列的信息。复杂列的列统计指标总是显示为-1。对于涉及复杂类型列的查询,Impala使用启发式方法来估计这些列中的数据分布。

HBase注意事项:

COMPUTE STATS也适用于HBase表。为HBase表收集的统计信息与为hdfs支持的表收集的统计信息有所不同,但是在连接查询中涉及到HBase表时,仍然使用元数据进行优化。

性能注意事项:

COMPUTE STATS收集的统计信息用于优化连接查询、向拼花表插入操作和其他资源密集型SQL语句。

对于大型表,COMPUTE STATS语句本身可能需要很长时间,您可能需要调优它的性能。

COMPUTE STATS语句不能与EXPLAIN语句或impala-shell中的SUMMARY命令一起工作。

您可以使用impala-shell中的概要文件语句来整体检查语句的计时信息。

如果一个基本的COMPUTE STATS语句对于一个分区表花费了很长时间,那么可以考虑切换到COMPUTE INCREMENTAL STATS语法,以便每次只分析新添加的分区。

文件格式注意事项:

COMPUTE STATS语句处理使用Impala支持的任何文件格式创建的表。有关使用不同文件格式的详细信息,请参见Impala如何处理Hadoop文件格式。根据表的文件格式,以下考虑适用于计算统计信息。

COMPUTE STATS语句对文本表没有任何限制。这些表可以通过Impala或Hive创建。

COMPUTE STATS语句适用于parquet表。这些表可以通过Impala或Hive创建。

COMPUTE STATS语句可以不受CDH 5.4 / Impala 2.2或更高版本中Avro表的限制。在以前的版本中,COMPUTE STATS只适用于通过Hive创建的Avro表,并且要求CREATE TABLE语句使用sql风格的列名和类型,而不是Avro风格的模式规范。

COMPUTE STATS语句对RCFile表没有任何限制。这些表可以通过Impala或Hive创建。

COMPUTE STATS语句可以处理没有限制的SequenceFile表。这些表可以通过Impala或Hive创建。

COMPUTE STATS语句处理分区表,不管所有分区使用相同的文件格式,还是通过ALTER TABLE定义某些分区以使用不同的文件格式。

DDL语句类型:

取消:当在内部运行INSERT或SELECT操作时,某些多阶段语句(创建表作为SELECT和COMPUTE STATS)可以在某些阶段取消。取消这个语句,使用ctrl - c从impala-shell解释器,取消按钮看页面的色调,行动>从查询列表中取消Cloudera经理,或取消从动态查询列表中(为特定节点)的查询选项卡上的黑斑羚web UI(端口25000)。

目前,CDH 4下的COMPUTE STATS语句不存储小数列的任何统计信息。当Impala在CDH 5下运行时,它在metastore数据库中对DECIMAL有更好的支持,COMPUTE STATS确实收集了DECIMAL列的统计信息,而Impala使用这些统计信息来优化查询性能。

Note:在Impala 1.4.0之前,COMPUTE STATS统计每个列中的空值数量,并将该数字记录在metastore数据库中。因为Impala目前在查询规划期间不使用空计数,所以Impala 1.4.0及更高版本通过跳过这个空计数来加速COMPUTE STATS语句。

内部细节:

在后台,COMPUTE STATS语句执行两条语句:一条通过count(*)函数计算表中每个分区(或者未分区的整个表)的行数,另一条通过NDV()函数计算每列中不同值的近似数量。您可能在监视和诊断显示中看到这些查询。影响其他查询的性能、可伸缩性和执行的因素(如并行执行、内存使用、允许控制和超时)也适用于COMPUTE STATS语句运行的查询。

HDFS权限:

impalad守护进程所运行的用户ID(通常是impala用户)必须具有源目录中所有受影响文件的读权限:未分区表中的所有文件或计算统计表中的分区表;如果是计算增量统计,则为不包含增量统计的分区中的所有文件。它还必须具有所有包含数据文件的相关目录的读取和执行权限。(本质上,COMPUTE STATS需要与它对表运行的底层SELECT查询相同的权限。)

计算统计报表 (apache.org)

Impala的命令COMPUTE STATS - 道法自然﹑ - 博客园 (cnblogs.com)

Impala的神奇指令「COMPUTE STATS」 - SegmentFault 思否

相关文章

网友评论

      本文标题:Impala的命令COMPUTE STATS(计算统计报表)

      本文链接:https://www.haomeiwen.com/subject/vlfsmltx.html