美文网首页
2-InnoDB存储引擎

2-InnoDB存储引擎

作者: 加夕 | 来源:发表于2019-03-21 17:52 被阅读0次

    1.InnoDB的版本

    MySQL 5.1 → InnoDB 1.0X

    MySQL 5.5 → InnoDB 1.1X

    MySQL 5.6 → InnoDB 1.2X

    2.InnoDB体系架构

    InnoDB存储引擎有多个内存块,可以认为这些内存块组成了一个大的内存池,负责如下工作:

    • 维护所有进程/线程需要访问的多个内部数据结构。
    • 缓存磁盘上的数据,方便快速地读取,同时在对磁盘文件的数据修改之前在这里缓存。
    • 重做日志(redo log)缓冲。

    ......

    ​ 后台线程的主要作用是负责刷新内存池中的数据,保证缓冲池中的内存缓存的是最近的数据。此外将已修改的数据文件刷新到磁盘文件,同时保证在数据库发生异常的情况下,InnoDB能恢复到正常运行状态。

    ①后台线程

    • Master Thread:非常核心的后台线程,主要负责将缓冲池中的数据异步刷新到磁盘,保证数据的一致性。包括脏页的刷新、合并插入缓冲(INSERT BUFFER)、UNDO页的回收等。

    • IO Thread:InnoDB中大量使用了AIO(Async IO)来处理写IO请求,IO Thread的工作主要是负责这些IO请求的回调(call back)处理。

      1.0版本之前,有4个IO Thread:write、read、insert buffer、log IO thread。

      1.0.x版本开始,read thread 和 write thread分别增大到了4个,分别使用innodb_read_io_threads和innodb_write_io_threads参数进行设置。

    • Purge Thread:回收已经使用并分配的undo页。(该功能1.1前是在master thread中完成的。1.1开始独立到单独的线程中进行。1.1只支持1个purge thread,1.2开始支持多个)
    • Page Cleaner Thread:1.2.x引入的。作用是将之前版本中脏页的刷新操作都放入到单独的线程中来完成,减轻Master Thread的工作及对于用户查询线程的阻塞。

    ②内存

    • 缓冲池:一块内存区域,通过内存的速度来弥补磁盘速度较慢对数据库性能的影响。

      读取:从磁盘读到的页放在缓冲池中(将页“FIX”在缓冲池中),下次读取相同页时,称该页在缓冲池被命中,直接读取该页。

      修改:首先修改在缓冲池中的页,再以一定的频率刷新到磁盘上(不是每次页发生更新时触发)。

      1.0.x版本开始,允许有多个缓冲池实例,每个页根据哈希值平均分配到不同缓冲池实例中。

    • LRU List、Free List 和 Flush List:

      缓冲池中的页默认大小为16KB。

      缓冲池通过LRU(Last Recent Used,最近最少使用)算法进行管理。 最频繁使用的页在LRU列表的前端,当缓冲池不能存放新读取到的页时,将首先释放LRU列表中尾端的页。InnoDB对传统的LRU做了一些优惠,LRU列表中加入了midpoint位置。新读取到的页,虽然是最新访问的页,但并不是直接放入LRU列表的首部,而是放入到LRU列表的midpoint位置。midpoint位置通过innodb_old_bolcks_pct控制(百分比)。到mid位置后多久才会被加入到LRU列表的热端,通过innodb_old_bolcks_time设置。

      1.0.x版本开始支持压缩也的功能。对于非16KB的页,通过unzip_LRU列表进行管理。通过show engine innodb status 观察,LRU len 包含 unzip_LRU len。

      LRU列表中的页被修改后,称该页为脏页,即缓冲池中的页和磁盘上的页的数据产生了不一致。这时数据库会通过checkpoint机制将脏页刷新回磁盘,而Flush列表中的页即为脏页列表。脏页既存在于LRU列表中,也存在于Flush列表中。LRU用来管理缓冲池中的页的可用性,Flush用来管理将页刷新回磁盘,二者互不影响。

    • 重做日志缓冲:

      InnoDB存储引擎先将重做日志信息放入到这个缓冲区,然后按一定频率将其刷新到重做日志文件。默认大小为8M,可通过innodb_log_buffer_size控制。

      将重做日志缓冲中的内容刷新到磁盘的重做日志文件中的情况:

      1)Master Thread 每一秒将重做日志缓冲刷新到重做日志文件。

      2)每个事务提交时会将重做日志缓冲刷新到重做日志文件。

      3)当重做日志缓冲池剩余空间小于1/2时,会将重做日志缓冲刷新到重做日志文件。

    • 额外的内存池:每个缓冲池中的帧缓冲还有对应的缓冲控制对象(记录了一些诸如LRU、锁、等待信息)的内存需要从额外内存池中申请。因此当申请了很大的InnoDB缓冲池时,也应考虑相应的增加这个值。

    3.Checkpoint技术

    倘若每次一个页发生变化,就将新页的版本刷新到磁盘,那么这个开心是非常大的。为了避免发生数据丢失问题,事务数据库系统普遍采用了write ahead log 策略,即:当事务提交时,先写重做日志,再修改页。当宕机而导致数据丢失时,通过重做日志来完成数据的恢复,这也是ACID中D(Durability 持久性)的要求。

    Checkpoint技术的目的是解决以下几个问题:

    • 缩短数据库的恢复时间。(宕机时,只需要对Checkpoint后的重做日志进行恢复)
    • 缓冲池不够用时,将脏页刷新到磁盘。(缓冲池不够用时,会根据LRU算法溢出页,若次页为脏页,需要强制执行Checkpoint,将脏页刷回磁盘)
    • 重做日志不可用时,刷新脏页。(事务数据库系统对重做日志的设计都是循环使用的,并不让其无限增大。)

    InnoDB是通过LSN(Log Sequence Number)来标记版本的。LSN是8字节的数字,单位是字节。每个页、重做日志、Checkpoint中都有LSN。

    InnoDB有两种CheckPoint:

    • Sharp Checkpoint;(发生在数据库关闭时将所有的脏页都刷新回磁盘)
    • Fuzzy Checkpoint;(只刷新一部分脏页)

    发生Fuzzy Checkpoint的几种情况:

    • Master Thread Checkpoint;
    • FLUSH_LRU_LIST Checkpoint;
    • Async/Sync Flush Checkpoint;(重做日志文件不可用的情况)
    • Dirty Page too much Checkpoint;

    4.Master Thread工作方式

    ①1.0.x之前的Master Thread

    具有最高的线程优先级别。内部由多个循环组成:主循环(loop)、后台循环(background loop)、刷新循环(flush loop)、暂停循环(suspend loop)。

    伪代码:

    void master_thread() {
        goto loop;
        loop:
        for(int i = 0; i < 10; i++) {
            thread_sleep(1) //sleep 1 second  
            //每秒一次的操作包括以下几点
            //1-1日志缓冲刷新到磁盘,即使这个事务还没有提交(总是)
            do log buffer flush to disk 
             //判断前一秒内发生的IO次数是否小于5次
            if(last_one_second_ios < 5) 
                //1-2合并插入缓冲(可能)
                do merger at most 5 insert buffer  
            //缓冲池中脏页的比例超过了配置文件设置的阈值
            if(buf_get_modified_ratio_pct > innodb_max_dirty_pages_pct) 
                //1-3至多刷新100个InnoDB的缓冲池中的脏页到磁盘(可能)
                do buffer pool flush 100 dirty page 
            if(no user activity)
                //1-4如果当前没有用户活动,则切换到background loop(可能)
                goto backgroud loop 
        }
        //每10秒的操作包括以下几点
        //判断过去10秒之内磁盘的IO操作是否小于200次
        if(last_ten_second_ios < 200)
            //10-1刷新100个脏页到磁盘(可能的情况下)
            do buffer pool flush 100 dirty page
        //10-2合并至多5个插入缓冲(总是)
        do merge at most 5 insert buffer
        //10-3将日志缓冲刷新到磁盘(总是)
        do log buffer flush to disk
        //10-4删除无用的undo页,最多尝试回收20个undo页(总是)
        do full purge
        //10-5刷新100个或者10个脏页到磁盘(总是)
        //缓冲池中的脏页比例超过70%
        if(buf_get_modified_ratio_pct > 70%) 
            //刷新100个脏页
            do buffer pool flush 100 dirty page
        else 
            //刷新10个脏页到磁盘
            buffer pool flush 10 dirty page
        goto loop 
        background loop:
            //删除无用的undo页(总是)
            do full purge
            //合并20个插入缓冲(总是)
            do merge 20 insert buffer
            if not idle:
                //跳回到主循环(总是)
                goto loop;
            else:
                //不断刷新100个页直到符合条件(可能,跳转到flush loop中完成)
                goto flush loop
        flush loop:
            //不断刷新100个页
            do buffer pool flush 100 dirty page
            if(buf_get_modified_ratio_pct > innodb_max_dirty_pages_pct)
                goto flush loop
            //切换到suspend loop,将Master Thread挂起,等待事件的发生
            goto suspend loop
        suspend loop:
            suspend_thread()
            waiting event
            goto loop;
    }
    

    ②1.2.x之前的Master Thread

    提供了参数innodb_io_capacity,用来标识磁盘IO的吞吐量,默认值为200。

    提供了参数innodb_adaptive_flushing(自适应地刷新),该值影响每秒刷新脏页的数量。

    提供了innodb_purge_batch_size,可以控制每次full purge回收的undo页的数量,默认值为20。

    伪代码

    void master_thread() {
        goto loop;
        loop:
        for(int i = 0; i < 10; i++) {
            thread_sleep(1) //sleep 1 second  
            //每秒一次的操作包括以下几点
            //1-1日志缓冲刷新到磁盘,即使这个事务还没有提交(总是)
            do log buffer flush to disk 
             //判断前一秒内发生的IO次数是否小于5%
            if(last_one_second_ios < 5% innodb_io_capacity) 
                //1-2合并插入缓冲(可能)
                do merger 5% innodb_io_capacity insert buffer  
            //缓冲池中脏页的比例超过了配置文件设置的阈值
            if(buf_get_modified_ratio_pct > innodb_max_dirty_pages_pct) 
                //1-3至多刷新innodb_io_capacity个InnoDB的缓冲池中的脏页到磁盘(可能)
                do buffer pool flush 100% innodb_io_capacity dirty page 
            //启用自适应刷新
            else if enable adaptive flush
                //刷新期望数量的脏页
                do buffer pool flush desired amount dirty page
            if(no user activity)
                //1-4如果当前没有用户活动,则切换到background loop(可能)
                goto backgroud loop 
        }
        //每10秒的操作包括以下几点
        //判断过去10秒之内磁盘的IO操作是否小于innodb_io_capacity次
        if(last_ten_second_ios < innodb_io_capacity)
            //10-1刷新innodb_io_capacity个脏页到磁盘(可能的情况下)
            do buffer pool flush 100% innodb_io_capacity dirty page
        //10-2合并至多5% innodb_io_capacity个插入缓冲(总是)
        do merge 5% innodb_io_capacity insert buffer 
        //10-3将日志缓冲刷新到磁盘(总是)
        do log buffer flush to disk
        //10-4删除无用的undo页,最多尝试回收innodb_purge_batch_size个undo页(总是)
        do full purge
        //10-5刷新innodb_io_capacity个或者10% innodb_io_capacity个脏页到磁盘(总是)
        //缓冲池中的脏页比例超过70%
        if(buf_get_modified_ratio_pct > 70%) 
            //刷新innodb_io_capacity个脏页
            do buffer pool flush 100% innodb_io_capacity dirty page
        else 
            //刷新10%的脏页到磁盘
            buffer pool flush 10% innodb_io_capacity dirty page
        goto loop 
        background loop:
            //删除无用的undo页(总是)
            do full purge
            //合并innodb_io_capacity个插入缓冲(总是)
            do merge 100% innodb_io_capacity insert buffer 
            if not idle:
                //跳回到主循环(总是)
                goto loop;
            else:
                //不断刷新innodb_io_capacity个页直到符合条件(可能,跳转到flush loop中完成)
                goto flush loop
        flush loop:
            //不断刷新innodb_io_capacity个页
            do buffer pool flush 100% innodb_io_capacity dirty page
            if(buf_get_modified_ratio_pct > innodb_max_dirty_pages_pct)
                goto flush loop
            //切换到suspend loop,将Master Thread挂起,等待事件的发生
            goto suspend loop
        suspend loop:
            suspend_thread()
            waiting event
            goto loop;
    }
    

    ③1.2.x的Master Thread

    伪代码

    if InnoDB is idle
        //之前版本中每10秒的操作
        srv_master_do_idle_tasks();
    else 
        //之前版本中每秒的操作
        srv_master_do_active_tasks();
    

    对于刷新脏页的操作,从Master Thread线程分离到一个单独的Page Cleaner Thread,从而减轻了Master Thread的工作。

    5.InnoDB关键特性

    InnoDB存储引擎的关键特性包括:

    • 插入缓冲(insert buffer)
    • 两次写(double write)
    • 自适应哈希索引(adaptive hash index)
    • 异步IO(Async IO)
    • 刷新邻接页(flush neighbor page)

    ①插入缓冲

    1)Insert Buffer

    插入聚集索引(Primary key)一般是顺序的,不需要磁盘的随机读取,因此这类情况下的插入操作,速度是非常快的。(并不是所有的主键插入都是顺序的,如UUID这样的就不是)

    insert buffer,是非聚集索引(辅助索引、UUID为主键等)的插入或更新操作,并不是每一次直接插入到索引页中,而是先判断非聚集索引页是否在缓冲池中,若在,直接插入;若不在,则先放入到一个 insert buffer对象中,再以一定的频率和情况进行insert buffer和辅助索引页子节点的merge(合并)操作,这时通常能将多个插入合并到一个操作中(因为在一个索引页中),这就大大提高了对于非聚集索引插入的性能。

    insert buffer的使用需要同时满足以下两个条件:

    • 索引是辅助索引(secondary index)
    • 索引不是唯一(unique)的

    修改 IBUF_POOL_SIZE_PER_MAX_SIZE可以对插入缓冲的大小进行控制,比如将值改为3(默认为2),则最大只能使用1/3的缓冲池内存。

    2)Change Buffer

    1.0.x版本开始引入,可将其视为Insert Buffer的升级。从这个版本开始,InnoDB存储引擎可以对DML操作——insert、delete、update都进行缓冲,他们分别是Insert Buffer、 Delete Buffer、Purge Buffer。

    和之前Insert Buffer一样,Change Buffer适用的对象依然是非唯一的辅助索引。

    对一条记录进行update操作可能分为两个过程:

    • 将记录标记为已删除;
    • 真正将记录删除。

    Delete Buffer对应update操作的第一个过程,Purge Buffer对应update操作的第二个过程。

    提供参数innodb_change_buffering,可选值:inserts、deletes、purges、changes、all、none。

    changes表示启用inserts和deletes,all表示启用所有,none表示都不启用。默认为all。

    1.2.x开始,可通过innodb_change_buffer_max_size来控制Change Buffer最大使用内存数量:

    默认值为25,表示最多使用1/4的缓冲池内存空间,该参数最大有效值为50。

    3)Insert Buffer的内部实现

    MySQL 4.1之前的版本中每张表一颗Insert Buffer B+树。现在的版本中,全局只有一颗Insert Buffer B+树。

    ②两次写

    如果Insert Buffer带给InnoDB的是性能上的提升,那么 doublewrite(两次写)带给InnoDB的是数据页的可靠性。

    doublewrite由两部分组成:

    • 内存中的doublewrite buffer,大小为2M。
    • 物理磁盘上共享表空间中连续的128个页,即2个区(extent),大小同样为2M。

    在对缓冲池的脏页进行刷新时,:通过memcpy函数将脏页先复制到内存中的doublewrite buffer,之后通过doublewrite buffer再分两次,每次1MB顺序地写入共享表空间的物理磁盘上,然后马上调用fsync函数,同步磁盘,避免缓冲写带来的问题。

    在这个过程中,因为doublewrite 页是连续的,因此这个过程是顺序写的,开销并不是很大。

    在完成doublewrite 页的写入后,再将doublewrite buffer中的页写入各个表空间文件中,此时的写入则是离散的。

    ③自适应哈希索引

    B+ 树的查找次数取决于B+ 树的高度,在生产环境中,B+树的高度一般为34层,故需要34次查询。

    InnoDB会监控对表上各索引页的查询,如果观察到建立哈希索引可以带来速度提升,则建立哈希索引,称之为自适应哈希索引(Adaptive Hash Index, AHI)。

    AHI有一个要求,对这个页的连续访问模式必须是一样的。例如 where a=xx 和 where a=xx and b=xxx,如果两个访问交替查询,那么不会构造AHI。

    AHI还有如下要求:

    • 以该模式访问了100次
    • 页通过该模式访问了N次,其中N=页中记录*1/16
    • 只能用来搜索等值的查询,对于其他查找类型,如范围查找,是不能使用哈希索引的。

    ④异步IO

    异步IO可以进行IO Merge操作,就是将多个IO合并为1个IO,这样可以提高IOPS的性能。例如用户需要访问页的(space, page_no)为:(8,6)、(8,7)、(8,8),每个页大小为16KB,同步IO需要进行3次IO操作,而AIO会判断到这三个页是连续的,因此AIO底层会发送一个IO请求,从(8,6)开始,读取48KB的页。

    ⑤刷新邻接页

    工作原理:当刷新一个脏页时,InnoDB会检测该页所在区(extent)的所有页,如果是脏页,那么一起进行刷新。

    这样做的好处是通过AIO可以将多个IO写入操作合并为一个IO操作,该机制在传统机械磁盘下有着显著的优势

    可通过innodb_flush_neighbors来控制是否启用该特性。

    6.启动、关闭与恢复

    innodb_fast_shutdown影响着表的存储引擎为InnoDB的行为。该值可取值为0、1、2,默认值为1.

    • 0 表示在MySQL数据库关闭时,InnoDB需要完成所有的full purge 和merge insert buffer,并且将所有的脏页刷新回磁盘。这需要一些时间,甚至需要几个小时来完成。如果在进行InnoDB升级时,必须将这个参数调为0,然后再关闭数据库。
    • 1 表示不需要完成上述的full purge 和 merge insert buffer操作,但是缓冲池中的一些数据脏页还是会刷新回磁盘。
    • 表示不完成 full purge 和 merge insert buffer操作,也不将缓冲池中的数据脏页刷新回磁盘,而是将日志都写入日志文件。这样不会有任何事务的丢失,但是下次MySQL数据库启动时,会进行恢复操作(recovery)。

    innodb_force_recovery影响了整个InnoDB存储引擎恢复的状况。该参数值默认为0。

    • 0 代表当发生需要恢复时,进行所有的恢复操作,当不能进行有效恢复时,如数据页发生了corruption,MySQL数据库可能发生宕机(crash),并把错误写入错误日志中去。
    • 1 忽略检查到的corrupt页。
    • 2 阻止Master Thread线程的运行,如Master Thread线程需要进行full purge操作,而这会导致crash。
    • 3 不进行事务的回滚操作。
    • 4 不进行插入缓冲的合并操作。
    • 5 不查看撤销日志(undo log),InnoDB存储引擎会将未提交的事务视为已提交。
    • 6 不进行前滚的操作。

    相关文章

      网友评论

          本文标题:2-InnoDB存储引擎

          本文链接:https://www.haomeiwen.com/subject/hebcvqtx.html