概述
内核提供cbm(changed block map)功能,对外提供数据页面的修改情况,并向提供外部接口,根据cbm信息可直接获取两次备份之间发生对于数据文件(行存、列存)的增量修改信息,并备份。
实现原理:
数据库所有的增量修改都会记录在xlog中,通过cbm writer常驻线程,持续解析新增xlog,识别并记录下哪些数据页面被修改。
CBM writer
在startup线程刚启动时,其根据已经解析出来的cbm文件,来决定cbm writer开始解析的起始lsn位置。然后,每次执行到checkpoint末尾时,会设置cbm writer线程的latch。cbm writer线程一直在一个死循环中等待latch被设置,然后进行一轮日志解析。
强制初始化逻辑
image.png
获取解析范围
上一次结束的位置就是开始的位置。
结束位置,要么是最近的checkpoint重做点位置,要么是强制刷新的CBM位置。
关键结构
Hash表
image.pngCbmPageHeader
typedef struct cbmpageheader {
pg_crc32c pageCrc;
bool isLastBlock;
uint8 pageType;
XLogRecPtr pageStartLsn;
XLogRecPtr pageEndLsn;
RelFileNode rNode;
ForkNumber forkNum;
BlockNumber firstBlkNo;
BlockNumber truncBlkNo;
} CbmPageHeader;
解析过程
插入hash表
-
按page读取xlog
-
对page里所有修改的block进行遍历
-
按照这个顺序找到自己在hash表中的位置插入,HashEntry -> segEntry -> pageEntry
刷盘
-
获取一个HashEntry上的所有page
-
按照firstBlkNo从小到大进行排序
-
刷入磁盘文件
CBM文件
cbm文件保存在data目录的pg_cbm文件夹下,命名方式为:pg_xlog_seqnum_startlsn_endlsn.cbm。
其中,seqnum表示这是第几个cbm文件,当一个cbm文件的大小超过128M时,将会切换到下一个cbm文件,并将seqnum加1,。startlsn为本cbm文件内容对应xlog记录的起始lsn,endlsn为本cbm文件切换时最后一次解析的截止lsn。若一个cbm文件还没有切换,那么endlsn为0。
cbm文件中一个page是512个字节。其中头文件56个字节(已经字节对齐)。可用字节为456个字节,每个字节可以表示8个block的变更,那么一个page就可以表示3648个变更的block。1G文件,用4个page就可以完全表示所有变更的block。
image.png增量备份
-
首先用pg_cbm_tracked_location函数获取已经track的cbm的LSN号作为end LSN,获取父备份的start LSN作为start LSN。(?为啥不是stop)
-
然后调用pg_cbm_get_changed_block(start_LSN, end_LSN)可以获取文件路径,改变的block数量,和block no列表。
-
pg_cbm_get_changed_block操作首先读取所有cbm文件,选择LSN在范围内的page(通过pageHeader)。
-
然后将这些page组成上面一样的Hash(组成hash的过程其实也就在进行合并),最后再把这些整个hash转为一个数组返回。
网友评论