前言
很多人对数据库索引可能都是知其然却不知其所以然,对索引没有很深入的理解,在使用过程中也一知半解,导致没有办法准确高效地使用索引,甚至存在不少误用的情况,导致使用索引反而降低了系统的性能。下面就以MySQL索引为对象,通过几篇文章来带大家好好的学习下索引的知识。
数据存储方式
上篇文章我们了解了索引的数据结构,下面我们再来了解另外一个概念,B+树索引的数据存储方式,也就是B+树索引具体在磁盘上是怎么存储的,这里主要涉及两个概念:聚簇索引,非聚簇索引。聚簇索引的叶子节点就是数据节点,存有完整的数据行,而非聚簇索引的叶子节点仍然是索引节点,只不过有指向对应数据行的指针。
非聚簇索引
MYISAM使用的是非聚簇索引,其结构如下,主键索引和二级索引存储的都是key和数据指针。
通过索引查找的时候,先通过索引找到对应的节点,然后通过节点的指针找到对应的数据在磁盘的地址。MYISAM的主键索引和二级索引没有任何区别,主键索引仅仅只是一个叫做PRIMARY的唯一、非空的索引,且MYISAM引擎中可以不设主键。
聚簇索引
INNODB使用的是聚簇索引,一般情况下主键会默认创建聚簇索引,且一张表只允许存在一个聚簇索引。如果创建的表中没有定义主键,InnoDB会选择一个所有列非空的Unique索引作为聚簇索引。如果找不到符合条件的列,InnoDB内部会生成一个名为GEN_CLUST_INDEX的隐式聚簇索引。这个隐式的聚簇索引中包含每个数据行的RowID,并以RowID作为隐式主键进行排序。
聚簇索引结构如下,主键聚簇索引存储的主键key和其他行数据,而二级索引存储的是索引key以及主键key。
如果通过主键搜索,搜到到目标key的时候就搜索到对应的数据行了,但是如果使用的是二级索引进行搜索的时候,搜索到数据的时候拿到的是主键key,如果不是索引覆盖的情况,还需要在主键索引再搜索一次,才能拿到想要的数据。
聚簇索引的优缺点
聚簇索引的优点
1、聚簇索引将索引和数据行保存在同一个B-Tree中,查询如果是通过聚簇索引查询的,可以直接获取数据,而非聚簇索引查到的是数据所在的指针,还需要进行一次I/O获取数据,因此聚簇索引通常比非聚簇索引查找更快。
2、对主键进行范围查询的效率很高,因为其数据是按照主键排列的
3、减小了移动数据或者数据页面分裂时维护二级索引的开销,因为InnoDB不需要更新二级索引的行指针
聚簇索引的缺点
1、聚簇索引最大限度地提高了I/O密集型应用的性能,但如果数据都存放在内存中,则访问顺序就不那么重要了,非聚簇索引也能很快在内存中查到数据,那聚簇索引也没什么优势。
2、插入速度严重依赖于插入顺序。按照主键顺序往InnoDB中进行数据导入是最快的。如果不是按照主键插入,最好在导入完成后使用OPTIMIZE TABLE命令重新组织一下表。事实上,如果不是按照顺序插入,可能会引起大量的页面分裂和数据移动
3、聚簇索引在插入新行和更新主键时,可能导致“页分裂”问题:当插入到某个已满的叶子结点时,B+树会分裂成两个页来容纳新插入的行数据。页分裂会导致表占用更多的磁盘空间(不要用UUID或随机数做主键,而应该使用单调递增的值做主键)。
4、聚簇索引可能导致全表扫描速度变慢,因为可能需要加载物理上相隔较远的页到内存中(需要耗时的磁盘寻道操作)。
5、二级索引访问数据行需要两次索引查找,解决办法是实现索引覆盖,直接在二级索引就能获取要所有需要的字段了,这样就不用再去主键索引搜索。
6、由于二级索引保存了主键列,二级索引会占更大的空间(所以选用一个短主键是有利的)。
参考资料
《高性能MySQL》
https://blog.csdn.net/apt1203JN/article/details/79587593
https://blog.csdn.net/zk3326312/java/article/details/79377680
https://www.cnblogs.com/shan1393/p/8999622.html
Enjoy it !
如果觉得文章对你有用,可以赞助我喝杯咖啡~
版权声明
转载请注明作者和文章出处
作者: X先生
首发于https://www.jianshu.com/p/cadb4115a89f
网友评论