从SQL Server到MySql(4): MySql中的索引

作者: 沪上最强亚巴顿 | 来源:发表于2015-10-22 20:29 被阅读354次

    1 索引基础

    • 索引的原理
      • 减少定位记录时所经历的中间过程, 从而加快存取速度.
      • 一般来说,索引本身也很大, 不可能全部存储在内存中, 因此索引往往以索引文件的方式存储在硬盘上. 这样, 索引查找过程中会产生磁盘I/O消耗.
      • 评价索引的数据结构的指标: 查找过程中磁盘I/O操作次数的渐进复杂度.
    • 索引的"三星系统"
      • 一星: 索引将相关的记录放到一起.
      • 二星: 索引中的数据顺序和查找中的排序顺序一致
      • 三星: 索引中的列包含了查询中需要的全部列.
    • 索引的优点
      • 减少了服务器需要扫描的数据量. (索引存储了实际的列值).
      • 避免排序和临时表. (按照顺序存储数据).
      • 将随机I/O变为顺序I/O. (顺序存储).
    • MySQL 中的索引
      • 在存储引擎层实现的, 所以没有统一的索引标准.
      • MYSql 不能将过滤条件传到存储引擎层.

    2 B-Tree 索引

    2.1 B-Tree 索引

    • 所有的值按照顺序存储的, 每个叶子页到根的距离相同.
      • 数据库将一个node的大小设置为一个页的大小. 每个node 只需一次I/O就可以完全载入.
      • 同时, 把B-Tree中的m值设置的非常大, 从而降低了树的高度, 有利于一次完全载入.
    • 索引对多个值进行排序的�依据是定义索引时的顺序.
    • 适用于全键值, 键值范围, 匹配最左前缀, 匹配列前缀, 只访问索引的查询.
      • 还可用于查询中的Order by 操作.

    2.2 m-way 查找树

    • 每个节点的键值数小于m.
    • 每个节点的度(子树的数目)小于等于m.
    • 键值按顺序排列.
    • 子树的键值要完全小于(左树)或大于(右树)或介于父节点之间(中间树)的键值.

    2.3 限制. 索引的顺序是非常重要的.

    • 不是按照索引的最左列开始查找,则无法使用索引.
    • 不能跳过索引中的列(�例如使用3个列做索引, 然后按1,3列进行查询).
    • 若查询中有某个列的范围查询, 则其右边的所有列都无法使用索引来优化查询.

    3 哈希索引

    3.1 哈希索引

    • 只有精确匹配索引所有列的查询才有效.
    • 只有Memory引擎显式支持(非唯一)哈希索引.
    • InnoDB 会在某些索引值被频繁使用时, 在内在基于B-Tree之上再创建哈希索引, 单这是完全自动,内部的行为. 用户无法控制.
    • 适合: "星型"schema,需要关联很多查找表.

    3.2 限制

    • 哈希索引只包含哈希值和行指针,而不存储字段值. 所以不能避免行读取.
    • 数据不是按照索引值顺序存储的, 也就无法用于排序.
    • 不支持部分索引列匹配查找. 使用的是全部索引列的内容计算的哈希值.
    • 只支持等值比较查找,而不支持任何范围查询.
    • 遇到哈希冲突时, 需要遍历链表中所有的行指针, 逐行比较,知道找到所有符合条件的行.
    • 若果哈希冲突很多, 那么索引维护操作的代价也会很高.

    3.3 创建自定义哈希索引

    • 在B-Tree基础上创建一个伪哈希索引.
    • 还是使用B-Tree进行查询, 但使用哈希值而不是键本身进行索引查找.
    • 在查询的Where 条件中手动指定使用的哈希函数.
    • 缺陷是需要维护哈希值, 可以手动维护, 也可以使用触发器.
    • 使用CRC32(), 在数据表非常大时,会出现大量的冲突,可以自实现一个64位(返回整数的)哈希函数.
    • SHA1(),MD5()的设计目标是最大限度消除冲突, 所以会产生非常长的字符串,浪费空间.
    • 由于"生日悖论",出现哈希冲突的概率的增长速度比想象的要快很多.
    • 要避免冲突, 必须在where条件中带入哈希值和对应的值
      • where crc=CRC32('gun') and word = 'gnu'.

    4 索引即数据结构

    • 每种查找算法都只能应用于特定的数据结构之上.
      • 数据本身的组织结构不可能完全满足各种数据结构.
      • 索引是数据结构.
      • B+ Tree: 内节点不存储数据, 只存储key; 叶子节点不存储指针.
        • 每个节点的指针上线为2d.
      • 磁盘预读的长度一般为页(page)的整数倍.
        • 主存和硬盘以页为单位交换数据.
        • 将tree 中一个节点的大小设置为一个页的大小.
        • B-Tree中一次检索最多需要h-1次I/O(根节点常驻内存),渐进复杂度为O(h)=O(logdN)。一般实际应用中,出度d是非常大的数字,通常超过100,因此h非常小(通常不超过3).

    相关文章

      网友评论

        本文标题:从SQL Server到MySql(4): MySql中的索引

        本文链接:https://www.haomeiwen.com/subject/uaethttx.html