InnoDB引擎表是基于B+树的索引组织表
关于B+树
B+ 树的特点:
a、所有关键字都出现在叶子节点的链表中(稠密索引),且链表中的关键字恰好是有序的;
b、不可能在非叶子节点中;
c、非叶子节点相当于是叶子节点的索引(稀疏索引),叶子节点相当于是存储(关键字)数据的数据层。
- 如果我们定义了主键(PRIMARY KEY)
那么InnoDB会选择主键作为聚集索引,如果没有显示定义主键,则InnoDB会选择第一个不包含Null值的唯一索引作为主键索引、如果也没有这样的唯一索引,则InnoDB会选择内置6字节长的ROWID作为隐含的聚集索引(ROWID随着行记录的写入而主键递增,这个ROWID不像oracle的ROWID那样可引用,是隐含的)。 - 数据记录本身被存于主索引(一棵B+Tree)的叶子节点上
这就要求同一个叶子节点内(大小为一个内存页或磁盘页)的各条数据记录按主键顺序存放,因此每当有一条新的记录插入时,MySQL会根据其主键将其插入适当的节点和位置,如果页面达到装载因子(InnoDB默认为15/16),则开辟一个新的页(节点) - 如果表使用自增主键
那么每次插入新的记录,记录都会顺序添加到当前索引节点的后续位置,当一页写满,就会自动开辟一个新的页。 - 如果使用非自增主键(如果身份证号或学号等)
由于每次插入主键的值近似于随机,因此每次新纪录都要被插到现在索引页的中间某个位置,此时Mysql不得不为了将新纪录插到合适位置而移动数据,甚至目标页面可能已经被写回到磁盘上而从缓存中清掉,此时又要从磁盘上读回来,这增加了很多开销,同时频繁的移动、分页操作造成了大量的碎片,得到了布偶紧凑的索引结构,后续不得不通过optimize table来重建表并优化填充页面。
总结:如果InnoDB表的数据写入顺序能和B+树索引的叶子节点顺序一致的话,这时候存取效率是最高的,也就是下面这几种情况的存取效率最高:
- 使用自增列(INT/BIGINT类型)做主键,这时候写入顺序是自增的,和B+树叶子几点分裂顺序一致;
- 该表不指定自增列做主键,同时也没有可以被选为主键的唯一索引(上面的条件),这时候InnoDB会选择内置的ROWID作为主键,写入顺序和ROWID增长顺序一致;
- 如果一个InnoDB表又没有显示主键,又有可以被选择为主键的唯一索引,当该唯一索引可能不是递增关系时(例如字符串、UUID、多字段联合唯一索引的情况),该表的存取效率就会比较差
网友评论