美文网首页
MySQL大数据量查询方法及优化

MySQL大数据量查询方法及优化

作者: 郑在学_blog | 来源:发表于2017-10-07 11:59 被阅读0次
    看了一些关于MySQL查询的优化方法,发现MySQL的优化最离不开的就是索引,还有其他优化的小建议。

    查询方法:

    1. 直接使用数据库提供的SQL语句
      语句样式: MySQL中,可用如下方法: SELECT * FROM 表名称 LIMIT M,N
      适应场景: 适用于数据量较少的情况(元组百/千级)
      原因/缺点: 全表扫描,速度会很慢 且 有的数据库结果集返回不稳定(如某次返回1,2,3,另外的一次返回2,1,3). Limit限制的是从结果集的M位置处取出N条输出,其余抛弃.
    2. 建立主键或唯一索引, 利用索引(假设每页10条)
      语句样式: MySQL中,可用如下方法: SELECT * FROM 表名称 WHERE id_pk > (pageNum*10) LIMIT M
      适应场景: 适用于数据量多的情况(元组数上万)
      原因: 索引扫描,速度会很快. 有朋友提出: 因为数据查询出来并不是按照pk_id排序的,所以会有漏掉数据的情况,只能方法3.
    3. 基于索引再排序
      语句样式: MySQL中,可用如下方法: SELECT * FROM 表名称 WHERE id_pk > (pageNum*10) ORDER BY id_pk ASC LIMIT M
      适应场景: 适用于数据量多的情况(元组数上万). 最好ORDER BY后的列对象是主键或唯一所以,使得ORDERBY操作能利用索引被消除但结果集是稳定的(稳定的含义,参见方法1)
      原因: 索引扫描,速度会很快. 但MySQL的排序操作,只有ASC没有DESC(DESC是假的,未来会做真正的DESC,期待...).
    4. 基于索引使用prepare(第一个问号表示pageNum,第二个?表示每页元组数)
      语句样式: MySQL中,可用如下方法: PREPARE stmt_name FROM SELECT * FROM 表名称 WHERE id_pk > (?* ?) ORDER BY id_pk ASC LIMIT M
      适应场景: 大数据量
      原因: 索引扫描,速度会很快. prepare语句又比一般的查询语句快一点。
    5. 利用MySQL支持ORDER操作可以利用索引快速定位部分元组,避免全表扫描
      比如: 读第1000到1019行元组(pk是主键/唯一键).
      SELECT * FROM your_table WHERE pk>=1000 ORDER BY pk ASC LIMIT 0,20
    6. 利用"子查询/连接+索引"快速定位元组的位置,然后再读取元组. 道理同方法5
      如(id是主键/唯一键,蓝色字体时变量):
    • 利用子查询示例:
      SELECT * FROM your_table WHERE id <=
      (SELECT id FROM your_table ORDER BY id desc LIMIT ($page-1)*$pagesize ORDER BY id desc LIMIT $pagesize

    • 利用连接示例:
      SELECT * FROM your_table AS t1
      JOIN (SELECT id FROM your_table ORDER BY id desc LIMIT ($page-1)*$pagesize AS t2
      WHERE t1.id <= t2.id ORDER BY t1.id desc LIMIT $pagesize;

    1. 当元祖数量高达百万级时,用复合索引:
      两个或更多个列上的索引被称作复合索引。
      联合索引又叫复合索引。对于复合索引:Mysql从左到右的使用索引中的字段,一个查询可以只使用索引中的一部份,但只能是最左侧部分。例如索引是key index (a,b,c)。 可以支持a | a,b| a,b,c 3种组合进行查找,但不支持 b,c进行查找 .当最左侧字段是常量引用时,索引就十分有效。

    以上查询方法的测试实验:http://www.cnblogs.com/geningchao/p/6649907.html

    索引的优缺点:

    一、为什么要创建索引呢(优点)?
    创建索引可以大大提高系统的性能。
    第一, 通过创建唯一性索引,可以保证数据库表中每一行数据的唯一性。
    第二, 可以大大加快数据的检索速度,这也是创建索引的最主要的原因。
    第三, 可以加速表和表之间的连接,特别是在实现数据的参考完整性方面特别有意义。
    第四, 在使用分组和排序子句进行数据检索时,同样可以显著减少查询中分组和排序的时间。
    第五, 通过使用索引,可以在查询的过程中,使用优化隐藏器,提高系统的性能。

    二、建立方向索引的不利因素(缺点)
    第一, 创建索引和维护索引要耗费时间,这种时间随着数据量的增加而增加。
    第二, 索引需要占物理空间,除了数据表占数据空间之外,每一个索引还要占一定的物理空间,如果要建立聚簇索引,那么需要的空间就会更大。
    第三, 当对表中的数据进行增加、删除和修改的时候,索引也要动态的维护,这样就降低了数据的维护速度。

    可以看出,虽然索引的有点有很多,但是索引的数量并不是越多越好。

    优化SQL语句查询的方法:

    1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。
    2.应尽量避免在 where 子句中使用!=或<>操作符,否则将引擎放弃使用索引而进行全表扫描。
    3.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:
    select id from t where num is null 。
    4.应尽量避免在 where 子句中使用 or 来连接条件,否则将导致引擎放弃使用索引而进行全表扫描,如:
    select id from t where num=10 or num=20
    可以这样查询:
    select id from t where num=10
    union all
    select id from t where num=20
    5.对索引列进行like操作时,不能将%放在前面,如:
    select id from t where name like '%abc%'
    6.in 和 not in 也要慎用,否则会导致全表扫描,如:
    select id from t where num in(1,2,3)
    对于连续的数值,能用 between 就不要用 in 了:
    select id from t where num between 1 and 3
    7.用查询缓存优化查询.
    8.当只要一行数据时用Limit 1.
    9.在Join表时使用相同类型的列,并且将两列索引。
    10.千万不要使用Order By Rand()。
    11.需要什么取什么,避免select*。
    12.为每张表都设置一个ID(主键最好int型,推荐使用unsigned,并设置自增)。
    13.使用ENUM,不用VARCHAR。
    14.固定长度的表会更快,但是要为每个字段预留需要的空间,方便维护。
    15.字段尽可能使用NOT NULL。
    16.如果表字段太多,可以选择垂直分割,把不常用的字段放在另一个表里。
    17.拆分数据量大的Delete和insert语句。
    18.避免频繁创建和删除临时表,以减少系统表资源的消耗。
    19.如果使用到了临时表,在存储过程的最后务必将所有的临时表显式删除,先 truncate table ,然后 drop table ,这样可以避免系统表的较长时间锁定。
    20.尽量避免使用游标,因为游标的效率较差,如果游标操作的数据超过1万行,那么就应该考虑改写。

    参考文章:
    浅谈MySQL中优化sql语句查询常用的30种方法 http://www.jb51.net/article/39221.htm
    MySQL大数据量分页查询方法及其优化 http://www.cnblogs.com/geningchao/p/6649907.html

    相关文章

      网友评论

          本文标题:MySQL大数据量查询方法及优化

          本文链接:https://www.haomeiwen.com/subject/rozdyxtx.html