TiDB执行计划（一）

作者: 小草莓子桑 | 来源:发表于2021-12-05 22:15 被阅读0次

TiDB执行计划（一）
TiDB执行计划（二）
2018-10-24 安装TiDB分布式数据库
TiDB Operator
TiDB Cluster 2.1 到 3.0 升级操作指南
TiDB 用户手册
TIDB学习总结
TiDB 整体架构及主要特性
使用Ansible 部署TiDB集群
每周阅读（3/19/2018）

最近排查了项目中TiDB慢sql，查询执行计划时，发现TiDB执行计划详情和mysql的还有一些区别，今天来学习分享一下，发现内容有点过长，分几部分吧，今天主要来说说执行计划中算子吧

查询计划命令

EXPLAIN命令，可以查看TiDB执行sql时的执行计划，用法和mysql一样，跟上sql即可

EXPLAIN  SQL语句

举个栗子(脱敏数据)

执行 EXPLAIN

EXPLAIN 
select
  a0_.id,
  a0_.create_time,
  a0_.end_time,
  a0_.flow_id,
  a0_.campaign_id,
  a0_.unit_id,
  a0_.oa_id,
  a0_.org_path_,
  a0_.param,
  a0_.start_time,
  a0_.state,
  a0_.user_type,
  a0_.update_time,
  a0_.user_id
from
  table_a a0_
where
  a0_.campaign_id = 354361236223
  and a0_.user_id = 25325123
  and a0_.user_type = 1
  and a0_.param = '1'
limit
  1000

执行计划结果

执行计划以一个树形结构展示出来，来说说每一列的含义吧：

id 为算子，是执行sql时，每一步需要执行子任务
estRows为每一个子任务预估需要处理的行数
task为子任务执行时候所在的位置
access-object子任务放的对象，比如说表、索引等
operator info子任务执行时候的一些算是操作日志的信息吧

今天主要讲讲算子

id：为算子，是执行sql时，每一步需要执行子任务

算子是为返回查询结果而执行的特定步骤

TiDB的算子主要分成为两类，第一类为扫表类操作的算子，第二类为汇聚TiKV/TiFlash上扫描的数据或者计算结果的算子

第一类算子：扫表类操作的算子

扫表类操作的算子有如下几类：

TableFullScan：全表扫描

一般查询条件中没有用到索引或者索引失效了，执行计划中就会出现TableFullScan

TableFullScan栗子：

select
  * 
from
  tablea a0_

这个sql，没有用到索引肯定就全表扫描了，执行计划如下：

TableFullScan栗子

看的到执行计划中，出现TableFullScan，id为TableFullScan + 了一个序号，说明，这一步执行的子任务进行全表扫描

IndexFullScan：全量扫描索引数据

IndexFullScan栗子1:聚合查询IndexFullScan栗子，使用COUNT：

select
  COUNT(user_id)
from
  tablea a0_

这个sql，对于索引列user_id使用了COUNT函数，导致了执行时需要对所有索引数据进行扫描，会出现IndexFullScan算子，执行计划如下：

IndexFullScan栗子1

看的到执行计划中，出现IndexFullScan，id为IndexFullScan + 了一个序号，说明，这一步执行的子任务进行对索引列user_id进行了全索引数据的扫描

IndexFullScan栗子2:聚合查询IndexFullScan栗子，使用group by：

select
  user_id
from
  tablea a0_
GROUP by
  user_id

这个sql，对于索引列user_id使用了group by，导致了执行时需要对所有索引数据进行扫描，会出现IndexFullScan算子，执行计划如下：

IndexFullScan栗子2

看的到执行计划中，出现IndexFullScan，id为IndexFullScan + 了一个序号，说明，这一步执行的子任务进行对索引列user_id进行了全索引数据的扫描

IndexFullScan栗子3:聚合查询IndexFullScan栗子，使用min函数：

select
  MIN(user_id)
from
  tablea a0_

这个sql，对于索引列user_id使用了min函数，导致了执行时需要对所有索引数据进行扫描，会出现IndexFullScan算子，执行计划如下：

IndexFullScan栗子3

看的到执行计划中，出现IndexFullScan，id为IndexFullScan + 了一个序号，说明，这一步执行的子任务进行对索引列user_id进行了全索引数据的扫描

IndexFullScan栗子4:子查询IndexFullScan栗子，使用索引IN 子查询，当子查询为全量时：

select
  *
from
  tablea a0_
where
  user_id IN (
    select
      user_id
    from
      tablea
  )

这个sql，对于索引列user_id使用了in，子查询为全表扫描，所以会导致外层查询会对索引列user_id进行全索引数据进行扫描，会出现IndexFullScan算子，执行计划如下：

IndexFullScan栗子

来看看执行计划，首先，子查询没有加条件，是一个全表扫描，看执行计划2的地方，出现了一个TableFullScan_49,由于子查询是全量数据，所以当外层sql对索引列user_id进行In时候，会对索引列user_id进行全索引数据的扫描，出现IndexFullScan

IndexFullScan栗子5:join查询IndexFullScan栗子，使用left join，当左联表为全量数据时：

select
  a0_.*,
  a1_.*
from
  tablea a0_
  LEFT JOIN (
    select
      *
    from
      tablea
  ) as a1_ ON a0_.user_id = a1_.user_id

这个sql，使用了索引列user_id进行了left join,当左联表为全表扫描时，会导致对索引列user_id进行全索引数据进行扫描，会出现IndexFullScan算子，执行计划如下：

IndexFullScan栗子5

来看看执行计划，左联表是一个全表扫描，所以会对索引列user_id进行全索引数据的扫描，出现IndexFullScan

TableRowIDScan：根据上层传递下来的rowId扫描表数据,通俗的讲，就是查询先走索引获取到rowId,在根据rowId读取数据

根据上层传递下来的rowId扫描表数据,通俗的讲，就是查询先走索引获取到rowId,在根据rowId读取数据，执行计划中就会出现TableRowIDScan ，举个栗子

TableRowIDScan栗子：

select
  * 
from
  tablea a1_
where
  a1_.user_id = 123214125

就一个简单的sql来看一下，执行计划如下：

TableRowIDScan栗子

因为使用了索引列user_id，所以，查询方式是从索引获取到了rowId，通过rowId去读取表数据，所以看到执行计划中，出现TableRowIDScan，id为TableRowIDScan + 了一个序号，说明，这一步执行的子任务是通过送索引获取到的rowId扫描表数据

IndexRangeScan：带有范围的索引数据扫描

带有范围的索引数据扫描，还是用这个栗子吧

TableRowIDScan栗子：

select
  * 
from
  tablea a1_
where
  a1_.user_id = 123214125

就一个简单的sql来看一下，执行计划如下：

TableRowIDScan栗子

因为对索引列user_id使用范围查询，所以看到执行计划中，出现IndexRangeScan，id为IndexRangeScan + 了一个序号，说明，这一步执行的子任务是带有范围的索引数据扫描

第二类算子：汇聚TiKV/TiFlash上扫描的数据或者计算结果的算子

数据汇聚类的算子有如下几类：

TableReader：将上底层扫表算子TableFullScan或TableRangeScan得到的数据进行汇总

将上底层扫表算子TableFullScan或TableRangeScan得到的数据进行汇总

TableReader汇聚全表扫描TableFullScan的栗子：

select
  * 
from
  tablea a1_

这个sql，没有用到索引肯定就全表扫描了，执行计划如下：

TableReader汇聚全表扫描TableFullScan的栗子

看的到执行计划中，因为没有使用索引查询，进行了全表扫描，出现了TableFullScan，所以最终使用了TableReader算子，对于全表扫描的数据进行了汇总

IndexReader：将上底层扫表算子IndexFullScan或IndexRangeScan得到的数据进行汇总

将上底层扫表算子IndexFullScan或IndexRangeScan得到的数据进行汇总

IndexReader汇聚全量索引扫描IndexFullScan的栗子：

select
  MIN(user_id)
from
  tablea a0_

还是使用这个sql，由于对索引列使用min函数，所以会对对全量索引进行扫描，出现了IndexFullScan算子，所以会有IndexReader算子对于IndexFullScan算子得到数据进行汇总，执行计划如下：

IndexReader汇聚全量索引扫描IndexFullScan的栗子

IndexLookUp

先汇总Build端TiKV扫描上来的RowID，再去Probe端上根据这些RowID精确地读取TiKV上的数据。Build 端是 IndexFullScan 或 IndexRangeScan 类型的算子，Probe端是 TableRowIDScan 类型的算子，用sql举栗子吧

IndexLookUp栗子：

select
  * 
from
  tablea a1_
where
  a1_.user_id = 123214125

执行计划如下：

IndexLookUp栗子

看这个sql，是一个通过索引列user_id进行了索引范围扫描，和上面讲的一样，他的执行逻辑是，先通过对于索引列user_id进行了一个范围扫描，得到所有符合条件的rowId，然后通过rowId扫描表获得数据，看执行也是，首先在Build端，通过IndexRangeScan算子，对于索引列user_id进行了范围扫描，扫描到的rowId，在Probe端,在通过TableRowIDScan算子，通过rowId扫描表获取数据，最终通过IndexLookUp算子来汇聚最终的数据

3.算子执行的顺序

算子的结构是树状的，但在查询执行过程中，并不严格要求子节点任务在父节点之前完成。而且TiDB执行同一查询的各个节点并行执行
还是以上个sql为栗子

select
  a0_.*,
  a1_.*
from
  tablea a0_
  LEFT JOIN (
    select
      *
    from
      tablea
  ) as a1_ ON a0_.user_id = a1_.user_id

执行计划如下：

image.png

每一层级上，Build端总是先于Probe端执行，并且Build端总是出现在Probe端前面

TiDB执行计划中的算子就为大家说到这里，后面会为大家补上task等的信息，欢迎大家来交流，指出文中一些说错的地方，让我加深认识。

TiDB执行计划（一）
最近排查了项目中TiDB慢sql，查询执行计划时，发现TiDB执行计划详情和mysql的还有一些区别，今天来学习分...
TiDB执行计划（二）
接一篇TiDB执行计划（一）[https://www.jianshu.com/p/fe166a122ee3]，上一...
2018-10-24 安装TiDB分布式数据库
一、了解TiDB 1.1 TiDB整体架构要深入了解 TiDB 的水平扩展和高可用特点，首先需要了解 TiDB ...
TiDB Operator
什么是 TiDB Operator TiDB Operator 是 TiDB 在 Kubernetes 平台上的自...
TiDB Cluster 2.1 到 3.0 升级操作指南
TiDB 3.0 升级操作指南本文档适用于从 TiDB 2.1 版本升级到 TiDB 3.0 版本。TiDB 3...
TiDB 用户手册
TiDB 用户手册一、TiDB是什么 TiDB 是 PingCAP 公司设计的开源分布式 HTAP (Hybri...
TIDB学习总结
TIDB介绍 1、什么是TIDB 1.1 TIDB介绍 TiDB 是一个数据库，是一个开源分布式数据库，由Ping...
TiDB 整体架构及主要特性
TiDB 整体架构首先，贴出的是TiDB的架构图。TiDB 集群主要包括三个核心组件：TiDB Server，P...
使用Ansible 部署TiDB集群
概述对于生产环境，须使用 TiDB-Ansible 部署 TiDB 集群。如果只是用于测试 TiDB ...
每周阅读（3/19/2018）
TiDB 源码阅读系列文章（五）TiDB SQL Parser 的实现在 TiDB 中，SQL Parser 如何...

TiDB执行计划（一）

查询计划命令

举个栗子(脱敏数据)

执行 EXPLAIN

执行计划结果

今天主要讲讲算子

id：为算子，是执行sql时，每一步需要执行子任务

TiDB的算子主要分成为两类，第一类为扫表类操作的算子，第二类为汇聚TiKV/TiFlash上扫描的数据或者计算结果的算子

第一类算子：扫表类操作的算子

TableFullScan：全表扫描

IndexFullScan：全量扫描索引数据

TableRowIDScan：根据上层传递下来的rowId扫描表数据,通俗的讲，就是查询先走索引获取到rowId,在根据rowId读取数据

IndexRangeScan：带有范围的索引数据扫描

第二类算子：汇聚TiKV/TiFlash上扫描的数据或者计算结果的算子

TableReader：将上底层扫表算子TableFullScan或TableRangeScan得到的数据进行汇总

IndexReader：将上底层扫表算子IndexFullScan或IndexRangeScan得到的数据进行汇总

IndexLookUp

3.算子执行的顺序

相关文章

TiDB执行计划（一）

TiDB执行计划（二）

2018-10-24 安装TiDB分布式数据库

TiDB Operator

TiDB Cluster 2.1 到 3.0 升级操作指南

TiDB 用户手册

TIDB学习总结

TiDB 整体架构及主要特性

使用Ansible 部署TiDB集群

每周阅读（3/19/2018）

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

数据分析

程序员小天地