美文网首页Java深入进阶
sql 百万级数据量查询优化

sql 百万级数据量查询优化

作者: 墙上藤蔓 | 来源:发表于2019-10-25 18:17 被阅读0次
  • 项目问题,一个需求需要对两张表进行合并查询,分开单表查很快,但两张表合起来会耗时很久,百万级耗时达到分钟级,这是无法忍受的

  • 合并结果集,用到 UNION all,这也是加上会耗时很久的罪魁祸首

  • 创建表

create table `test1` (
    `id` bigint(10) primary key NOT NULL DEFAULT '0',
    `name` varchar(20) NOT NULL DEFAULT '' comment '用户名',
    `card_no` bigint(18) NOT NULL DEFAULT '0' comment '学号',
    `age` int(2) NOT NULL DEFAULT '0' comment '年龄',
    `sex` TINYINT(1) NOT NULL DEFAULT '0' comment '性别',
    `amount` decimal(18,4) NOT NULL DEFAULT '0.0000',
    `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP
)

create table `test2` (
    `id` bigint(10) primary key NOT NULL DEFAULT '0',
    `name` varchar(20) NOT NULL DEFAULT '' comment '用户名',
    `card_no` bigint(18) NOT NULL DEFAULT '0' comment '学号',
    `year` int(2) NOT NULL DEFAULT '0' comment '年龄',
    `sex` TINYINT(1) NOT NULL DEFAULT '0' comment '性别',
    `money` decimal(18,4) NOT NULL DEFAULT '0.0000',
    `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP
)
  • 由于页面存在分页,所以对union用法不可避免,(哪位大啦有高见,请指教谢谢)

  • sql 实现

// 将满足条件的两张表数据一起显示出来
SELECT 
    a.name as name,
    a.age as age,
    a.amount as money
    FROM test1 a
    WHERE
        a.card_no in (xxx)
        and
        a.sex=1
        AND
        a.age>18
UNION all
SELECT 
    b.name as name,
    b.card_no as idCard,
    b.year as age,
    b.money as money
    FROM test2 b
    WHERE
        b.card_no in (xxx)
        and
        b.sex=1
        AND
        b.year>18
  • 通常sql就是以上写法,小数据量还没什么,大数据量由于union all的存在会耗时很久,请求超时,令人崩溃

优化sql开始

  • 避免select *的使用,减少数据库的解析时间
  • where 条件放到每张表后面,避免全表扫描
  • 添加查询条件索引

以上三点几十万的数据已经能接受了

此时100万的数据耗时4s

重点

  • 添加索引
// eg.添加单列索引
alter table test1  add INDEX idx_card_no(`card_no`) COMMENT '学号'

// 这里使用多列索引
// 注意索引的创建顺序需要与查询条件顺序一致
// 表1
alter table test1  add INDEX idx_card_no_sex_age(`card_no`,`sex`,`age`) COMMENT '学号-性别-年龄'
// 表2
alter table test2  add INDEX idx_card_no_sex_year(`card_no`,`sex`,`year`) COMMENT '学号-性别-年龄'
此时100万的数据耗时2.5s
  • 查看索引 show index from table_name
  • 删除索引
drop index index_name on table_name ;

alter table table_name drop index index_name ;

alter table table_name drop primary key ;
  • 创建索引提高查询效率,当然也会降低查询效率(亲测),由于一张表可能会有多个业务,索引也会增加

  • 查看以上加索引之后的性能 EXPLAIN(自行百度用法)

    SQL执行计划

划红线的列显示会用到其他索引,这中间有个索引匹配过程,因此会耗时

那如果我指定单独的索引是不是会减少匹配的消耗呢?(可以

  • 分别在两条查询后指定索引 USE INDEX(index_name)
SELECT 
    a.name as name,
    a.age as age,
    a.amount as money
    FROM test1 a
    
    USE INDEX(idx_card_no_sex_age)
    
    WHERE
        a.card_no in (xxx)
        and
        a.sex=1
        AND
        a.age>18
UNION all
SELECT 
    b.name as name,
    b.card_no as idCard,
    b.year as age,
    b.money as money
    FROM test2 b
    
    USE INDEX(idx_card_no_sex_year)
    
    WHERE
        b.card_no in (xxx)
        and
        b.sex=1
        AND
        b.year>18
此时100万的数据耗时不到1s

此时应该可以满足需求了,单表也可借用以上优化方法

欢迎大家提供自己的见解,谢谢!

相关文章

网友评论

    本文标题:sql 百万级数据量查询优化

    本文链接:https://www.haomeiwen.com/subject/ewfevctx.html