美文网首页
Mysql基础——索引

Mysql基础——索引

作者: chase_lwf | 来源:发表于2021-01-02 18:16 被阅读0次

    内容

    • 索引基础知识点
    • 索引数据结构
    • 优化器为什么会选错索引?
    • 普通索引和唯一所有如何选择?
    • 如何给字符串添加索引?
    • 排序查询如何通过索引进行优化?
      • 通过联合索引来优化排序
      • order by工作原理是什么?

    一 索引基础

    • 常见索引模型:哈希表、有序数组、搜索树
    • 哈希表:适合等值查询的场景
    • 有序数组:按顺序存储。查询用二分法就可以快速查询,时间复杂度是:O(log(N)),更新效率低
    • 有序数组的适用场景:静态存储引擎。
    • 主键索引和非主键索引
      主键索引的叶子节点存的是整行的数据(聚簇索引),非主键索引的叶子节点内容是主键的值(二级索引)主键索引只要搜索ID这个B+Tree即可拿到数据。普通索引先搜索索引拿到主键值,再到主键索引树搜索一次(回表);
    • 页分裂与页合并:当一个数据页满了,按照B+Tree算法,新增加一个数据页,叫做页分裂,会导致性能下降。空间利用率降低大概50%。当相邻的两个数据页利用率很低的时候会做数据页合并,合并的过程是分裂过程的逆过程。
    • 从存储和性能上看,自增主键是更好的选择,业务逻辑的字段做主键,则往往不容易保证有序插入,这样写数据成本相对较高,而且主键长度越小,普通索引的叶子节点就越小,普通索引占用的空间也就越小;
    • 回表:根据二级索引找到数据,然后在回到主键索引树搜索的过程,称为回表
    • 覆盖索引:某索引已经覆盖了查询需求,称为覆盖索引,例如:select ID from T where k between 3 and 5,二级索引上已经有id值,不需要再次回表;
    • 最左前缀原则:B+Tree这种索引结构,可以利用索引的"最左前缀"来定位记录,只要满足最左前缀,就可以利用索引来加速检索。最左前缀可以是联合索引的最左N个字段,也可以是字符串索引的最左M个字符
      1. 第一原则是:如果通过调整顺序,可以少维护一个索引,那么这个顺序往往就是需要优先考虑采用的。
    • 索引下推:在MySQL5.6之前,只能从根据最左前缀查询到ID开始一个个回表。到主键索引上找出数据行,再对比字段值。MySQL5.6引入的索引下推优化,可以在索引遍历过程中,对索引中包含的字段先做判断,直接过滤掉不满足条件的记录,减少回表次数。

    二 索引数据结构

    mysql索引数据结构采用B+树,采用聚簇索引的方式来组织表,主键索引就是聚餐索引,树的B+树的叶子节点存储行的真实数据,非主键索引的叶子节点存储的是主键的值。

    2.1 聚簇索引

    每个InnoDB的表都拥有一个索引,称之为聚簇索引,此索引中存储着行记录,一般来说,聚簇索引是根据主键生成的。为了能够获得高性能的查询、插入和其他数据库操作,理解InnoDB聚簇索引是很有必要的。

    聚簇索引按照如下规则创建:

    • 当定义了主键后,InnoDB会利用主键来生成其聚簇索引;
    • 如果没有主键,InnoDB会选择一个非空的唯一索引来创建聚簇索引;
    • 如果这也没有,InnoDB会隐式的创建一个自增的列来作为聚簇索引。

    Note: 对于选择唯一索引的顺序是按照定义唯一索引的顺序,而非表中列的顺序, 同时选中的唯一索引字段会充当为主键,或者InnoDB隐式创建的自增列也可以看做主键。
    聚簇索引整体是一个b+树,非叶子节点存放的是键值,叶子节点存放的是行数据,称之为数据页,这就决定了表中的数据也是聚簇索引中的一部分,数据页之间是通过一个双向链表来链接的,B+树是一棵平衡查找树,也就是聚簇索引的数据存储是有序的,但是这个是逻辑上的有序,但是在实际在数据的物理存储上是,因为数据页之间是通过双向链表来连接,假如物理存储是顺序的话,那维护聚簇索引的成本非常的高。

    2.2 B+定义:

    B+树满足如下条件,即可称之为m阶B+树:

    • 根结点只有一个,分支数量范围为[2,m]
    • 分支结点,每个结点包含分支数范围为[ceil(m/2), m];
    • 分支结点的关键字数量等于其子分支的数量减一,关键字的数量范围为[ceil(m/2)-1, m-1],关键字顺序递增;

    三 优化器为什么会选错索引?

    • 选索引依据:优化器会根据扫描行数、是否使用临时表、是否排序等因素进行综合判断选择哪个索引;
    • 扫描行数:根据索引的“区分度”来估算扫描行数,一个索引上不同的值越多,这个索引的区分度就越好。而一个索引上不同的值的个数,我们称之为“基数”(cardinality)。也就是说,这个基数越大,索引的区分度越好。
      1.可以通过:show index from table来查看cardinality
    • 优化器选错索引时如何办?
      1.采用 force index 强行选择一个索引;
      2.可以考虑修改语句,引导 MySQL 使用我们期望的索引
      3.在有些场景下,我们可以新建一个更合适的索引,来提供给优化器做选择,或删掉误用的索引。
    • 索引统计信息不准确导致的问题,可以用 analyze table 来解决。

    四 普通索引和唯一所有如何选择?

    如果业务不需要唯一索引来控制数据的唯一性,那么尽量优先考虑普通索引,原因在于唯一索引用不上change buffer机制来改进性能,
    2.1 change buffer
    在实际过程中,mysql利用change buffer对要更新行的数据页不在内存这种情况做了优化,针对数据页不在内存这种情况,如果更新操作总是需要去随机IO磁盘拿取数据,效果会差一些,所以在buffer pool内存中开辟了一段空间change buffer,当有更新、delete、 insert语句时会把这个操作先写入change buffer, 之后在进行merge操作时,再把change buffer记录的操作应用到原数据页;

    • 更新操作时,如果语句中有普通索引,则对普通索引的插入操作会利用change buffer,主键索引则不会,因为数据库对唯一索引的操作总是要把数据页读入内存,进行是否重复的判断,既然已经读入内存了,则不需要change buffer再来优化了;

    五 如何给字符串添加索引

    • 直接创建完整索引,这样可能比较占用空间;
    • 创建前缀索引,节省空间,但会增加查询扫描次数,并且不能使用覆盖索引;
    • 倒序存储,再创建前缀索引,用于绕过字符串本身前缀的区分度不够的问题;
      1.用于正序时,前缀重复率的,而字段倒叙后重复率的情景
    • 创建 hash 字段索引,查询性能稳定,有额外的存储和计算消耗,跟第三种方式一样,都不支持范围扫描。
      1.额外多建立一个索引字段存储csc32计算得到hash值,通过这个字段来索引数据

    六 排序查询如何通过索引进行优化?

    6.1 通过联合索引来优化排序

    例如有个表:

    CREATE TABLE `t` (
      `id` int(11) NOT NULL,
      `city` varchar(16) NOT NULL,
      `name` varchar(16) NOT NULL,
      `age` int(11) NOT NULL,
      `addr` varchar(128) DEFAULT NULL,
      PRIMARY KEY (`id`),
      KEY `city` (`city`)
    ) ENGINE=InnoDB;
    

    执行如下语句时:

    select name, city, age from people where city='昆明' order by name limit 100;
    
    • 这样的查询,可以考虑添加联合索引(city,name)来加速排序,如果只在city上添加索引,那么name是无序的,mysql server会通过全字段排序或是rowid 排序算法来进行排序,效果都会大打折扣,而建立(city, name)联合索引,相同的city的所有行,就已经是排好序的,避免了排序;
    • 如果是高频查询,还可以考虑(city, name, age)的联合索引,避免了回表,再次提升速度;

    6.2 order by 是如何工作的呢?

    mysql排序执行方式有两种,分别是:全字段排序和rowid排序。
    全字段排序:
    例如上面的搜索语句,根据city获取数据,然后根据name排序,其基本流程是:

    • 初始化 sort_buffer,确定放入 name、city、age 这三个字段;
    • 从索引 city 找到第一个满足 city='昆明’条件的主键 id,到主键 id 索引取出整行,取 name、city、age 三个字段的值,存入 sort_buffer 中;
    • 从索引 city 取下一个记录的主键 id;
    • 重复步骤上面步骤 直到 city 的值不满足查询条件为止,对 sort_buffer 中的数据按照字段 name 做快速排序;
    • 按照排序结果取前 100 行返回给客户端。
      sort_buffer有参数sort_buffer_size确定,如果判断sort_buffer_size不够排序使用,会用磁盘的临时文件进行辅助排序,采取归并的方式进行排序;

    rowid排序:

    • 初始化 sort_buffer,确定放入两个字段,即 name 和 id;
    • 从索引 city 找到第一个满足 city='昆明‘条件的主键 id,到主键 id 索引取出整行,取 name、id 这两个字段,存入 sort_buffer 中;
    • 从索引 city 取下一个记录的主键 id;
    • 重复上面步骤直到不满足 city='昆明’条件为止,对 sort_buffer 中的数据按照字段 name 进行排序;遍历排序结果,取前 1000 行,并按照 id 的值回到原表中取出 city、name 和 age 三个字段返回给客户端。
      并不是所有order by语句就一定要用到排序操作,只有当数据本身是无序时,才会进行排序操作,如果数据是有序组织的,那么就不需要进行排序了,例如上述所说的如果city和name字段建立的联合索引,那么数据是有序组织的,在查询时就不需要排序了,直接确实数据返回个客户端就好。

    引用:《丁奇45讲》

    相关文章

      网友评论

          本文标题:Mysql基础——索引

          本文链接:https://www.haomeiwen.com/subject/kjisiktx.html