MySQL索引简介

一种优化查询的数据结构，比如Mysql中的索引是用B+树实现的，而B+树就是一种数据结构，可以优化查询速度，可以利用索引快速查找数据，所以能优化查询。以文件的方式存储到磁盘。

b+树优势：b+树高度恒定（可以控制在3到5层），即渐进复杂的恒定，意味着检索是只需要进行几步读取即可。

b+树和b树的比较

1.BTree每个节点都可以存储数据，而B+Tree只有叶子节点才存储数据

2.B+Tree在mysql的实现时还做了定制，可以看到相邻的叶子节点间加了链式的关联的。意味着比如id>1检索，找到1后可以通过链式关联快速继续往下查找

mysql两种数据结构如何设计索引

MyISAM：索引文件数据文件分开存在，检索是先判断是否有索引，有则先到索引文件找到对于数据的逻辑地址，再去数据文件检索对应数据

InnoDB:数据就是一颗B+Tree（也可以理解为索引文件和数据文件在一起）。默认会以主键来创建一个索引，如果创建表时没有指定主键，InnoDB会为你指定一列不重复数据的列作为主键，如果找不到这样的列，那么InnoDB会给你生成一列作为主键（相当于Mongodb 中的 objectId策略）

影响因素

那么mysql数据库如何使用这些索引的，首先mysql会将索引加载到内存中（对于innodb引擎，我们可以认为也会加载数据），而这个能加载多少是由：innodb_buffer_pool_size决定，因此原则上这个值越大越好，但也不能大到超过机器内存。那么被加载的数据会已page形式存放到缓存池中，默认一个page为16k。系统利用LRU算法将缓存池中的数据进行淘汰，所以我们要十分注意innodb_buffer_pool_size的值，我们可以通过show status like "Innodb_buffer_pool_%";查看InnoDB的Buffer Pool情况，其中包括索引命中率，例如：

总共有8191 个page，有7303 个是Free 状态，有788个page 有数据，read 请求31569次，其中有710次请求使用物理磁盘获取

InnoDB Buffer Pool 的Read 命中率大概：（31569-710)/ 31569 * 100% = 97.75%，如果我们命中率低于了95%表示我们数据库索引需要进行优化，因为存在大量的IO读写工作。

其中我们十分需要注意数据表和innodb_buffer_pool_size的大小，因为当我们加载数据大于该值后，数据性能会急剧下降。

其中：

Innodb_buffer_pool_pages_data：InnoDB缓冲池中包含数据的页数。该数字包括脏页面和干净页面。使用压缩表时，报告的Innodb_buffer_pool_pages_data值可能大于Innodb_buffer_pool_pages_total（Bug＃59550）。

Innodb_buffer_pool_pages_dirty：显示在内存中修改但尚未写入数据文件的InnoDB缓冲池数据页的数量（脏页刷新）。

Innodb_buffer_pool_pages_flushed：表示从InnoDB缓冲池中刷新脏页的请求数。

Innodb_buffer_pool_pages_free：显示InnoDB缓冲池中的空闲页面

Innodb_buffer_pool_pages_misc：InnoDB缓冲池中的页面数量很多，因为它们已被分配用于管理开销，例如行锁或自适应哈希索引。此值也可以计算为Innodb_buffer_pool_pages_total - Innodb_buffer_pool_pages_free - Innodb_buffer_pool_pages_data。

Innodb_buffer_pool_pages_total：InnoDB缓冲池的总大小，以page为单位。

innodb_buffer_pool_reads：表示InnoDB缓冲池无法满足的请求数。需要从磁盘中读取。

innodb_buffer_pool_read_requests：它表示从内存中逻辑读取的请求数。

innodb_buffer_pool_wait_free：通常，对InnoDB缓冲池的写入发生在后台。当InnoDB需要读取或创建页面并且没有可用的干净页面时，InnoDB首先刷新一些脏页并等待该操作完成。此计数器计算这些等待的实例。如果已正确设置innodb_buffer_pool_size，则此值应该很小。如果大于0，则表示InnoDb缓冲池太小。

innodb_buffer_pool_write_request：表示对缓冲池执行的写入次数。

索引优化

1.语句判断分析

基于sql判断是否需要索引优化，我们可以在sql语句前加Explain来判断当前语句，示例：

EXPLAIN SELECT * FROM country_hotpoint_scene c WHERE c.cluster_type = "countryHotpoint" AND c.data_version = 1 AND c.cluster_code = "001" AND c.task_id != "1776630" AND ( c.cr_time BETWEEN "2020-04-30 00:00:00" AND "2020-04-30 23:59:59" )

通过type我们可以看到，现在进行的是全表检索。这时我们就可以考虑索引优化了

注：explain相关可以参考：https://www.cnblogs.com/tufujie/p/9413852.html

2.辨识度判断

我们要明白，索引选择性约稿效率有高。对于内容比较长的字段，我们没有必要保存完整的内容到索引当中，所以我们可以使用前缀索引即可（注意，前缀索引要求前面的辨识度非常高，如果辨识度在长度为一半时还达不到0.846就没必要做这个了）。但具体截取多少呢，我们利用：

SELECT COUNT(DISTINCT last_name)/COUNT(*)FROM people;进行计算，一般来讲0.846即可。同样的，对于组合索引，顺序也是根据选择性来，例如：

3.索引基本概念

1、需要加索引的字段，要在where条件中

2、数据量少的字段不需要加索引（即辨识度）

3、如果where条件中是OR关系，加索引不起作用

4、符合最左原则

例子：

联合索引（a,b,c）使用a或者a或者a、b或a、b、c这3种可以进行查找，不支持b、c进行查找

使用联合索引（a,b,c）。其中这些条件可以可以乱序，因为mysql的sql优化器会优化这些代码