美文网首页
增量备份与CBM机制

增量备份与CBM机制

作者: 奥利奥蘸墨水 | 来源:发表于2022-06-24 18:27 被阅读0次

    概述

    内核提供cbm(changed block map)功能,对外提供数据页面的修改情况,并向提供外部接口,根据cbm信息可直接获取两次备份之间发生对于数据文件(行存、列存)的增量修改信息,并备份。

    实现原理:

    数据库所有的增量修改都会记录在xlog中,通过cbm writer常驻线程,持续解析新增xlog,识别并记录下哪些数据页面被修改。

    CBM writer

    在startup线程刚启动时,其根据已经解析出来的cbm文件,来决定cbm writer开始解析的起始lsn位置。然后,每次执行到checkpoint末尾时,会设置cbm writer线程的latch。cbm writer线程一直在一个死循环中等待latch被设置,然后进行一轮日志解析。

    强制初始化逻辑


    image.png

    获取解析范围

    上一次结束的位置就是开始的位置。

    结束位置,要么是最近的checkpoint重做点位置,要么是强制刷新的CBM位置。

    关键结构

    Hash表

    image.png

    CbmPageHeader

    typedef struct cbmpageheader {
    
        pg_crc32c pageCrc;
    
        bool isLastBlock;
    
        uint8 pageType;
    
        XLogRecPtr pageStartLsn;
    
        XLogRecPtr pageEndLsn;
    
        RelFileNode rNode;
    
        ForkNumber forkNum;
    
        BlockNumber firstBlkNo;
    
        BlockNumber truncBlkNo;
    
    } CbmPageHeader;
    

    解析过程

    插入hash表

    1. 按page读取xlog

    2. 对page里所有修改的block进行遍历

    3. 按照这个顺序找到自己在hash表中的位置插入,HashEntry -> segEntry -> pageEntry

    刷盘

    1. 获取一个HashEntry上的所有page

    2. 按照firstBlkNo从小到大进行排序

    3. 刷入磁盘文件

    CBM文件

    cbm文件保存在data目录的pg_cbm文件夹下,命名方式为:pg_xlog_seqnum_startlsn_endlsn.cbm。

    其中,seqnum表示这是第几个cbm文件,当一个cbm文件的大小超过128M时,将会切换到下一个cbm文件,并将seqnum加1,。startlsn为本cbm文件内容对应xlog记录的起始lsn,endlsn为本cbm文件切换时最后一次解析的截止lsn。若一个cbm文件还没有切换,那么endlsn为0。

    cbm文件中一个page是512个字节。其中头文件56个字节(已经字节对齐)。可用字节为456个字节,每个字节可以表示8个block的变更,那么一个page就可以表示3648个变更的block。1G文件,用4个page就可以完全表示所有变更的block。

    image.png

    增量备份

    1. 首先用pg_cbm_tracked_location函数获取已经track的cbm的LSN号作为end LSN,获取父备份的start LSN作为start LSN。(?为啥不是stop)

    2. 然后调用pg_cbm_get_changed_block(start_LSN, end_LSN)可以获取文件路径,改变的block数量,和block no列表。

    3. pg_cbm_get_changed_block操作首先读取所有cbm文件,选择LSN在范围内的page(通过pageHeader)。

    4. 然后将这些page组成上面一样的Hash(组成hash的过程其实也就在进行合并),最后再把这些整个hash转为一个数组返回。

    相关文章

      网友评论

          本文标题:增量备份与CBM机制

          本文链接:https://www.haomeiwen.com/subject/bhkbvrtx.html