美文网首页
pt-table-checksum 3.0.4 bug 无法检查

pt-table-checksum 3.0.4 bug 无法检查

作者: 雨月miu | 来源:发表于2017-09-27 18:17 被阅读0次

    环境及关键配置:oracle mysql 5.6.31、pt-table-checksum 3.0.4

    binlog_format : row

    现象:通过工具进行master slave 数据表的比对,命令如下:

    无法检查出主从库里表一致的情况。

    pt-table-checksum \

    --host=172.17.0.2 \

    --port=3306 \

    --user=root \

    --password=root \

    --tables=test.sbtest1 \

    --nocheck-replication-filters \

    --nocreate-replicate-table \

    --nocheck-binlog-format \

    --replicate=percona.checksums \

    --recursion-method dsn=t=percona.dsns

    原因:简单说明下工具的原理

    工具会在主库上建立表checksum,表中有字段this_crc,this_cnt,master_crc,master_cnt四个字段。

    主库建表会同步到从库,this是从库表的一个chunk的值,master是主库相同chunk的值,对这四个字段进行比对,如果相等,则数据一致。

    那么两组数据,四个值如何得到。

    pt-table-checksum会先修改binlog_format=statement,再执行两次修改,第一次replace的方式修改this_crc,this_cnt,以“变量”值在主库执行

    REPLACE INTO `percona`.`checksums` (db, tbl, chunk, chunk_index, lower_boundary, upper_boundary, this_cnt, this_crc) SELECT 'test', 't1', '1', NULL, NULL, NULL, COUNT(*) AS cnt, COALESCE(LOWER(CONV(BIT_XOR(CAST(CRC32(CONCAT_WS('#', `t`, CONCAT(ISNULL(`t`)))) AS UNSIGNED)), 10, 16)), 0) AS crc FROM `test`.`t1` /*checksum table*/

    语句复制到从库执行,如果主从的同一个chunk不一致,则写入到值this_crc,this_cnt也会不一致

    第二次update的方式修改master_crc,master_cnt

    则是以master的值作为“常量”进行更新,例如:

    UPDATE `percona`.`checksums` SET chunk_time = '0.005717', master_crc = '435a7b4f', master_cnt = '3' WHERE db = 'test' AND tbl = 't1' AND chunk = '1'

    则从库会复制到主库的值,然后四个值两两比对,得到一致或者不一致。

    那么为什么会出现无法检查出不一致的情况呢。

    因为脚本没有执行set binlog_format=statement

    试想下,如果没有修改复制模式,而主库的复制模式是row或者mixed,则第一次的replace会使用row的方式进行复制,那么从库表里的this和master两组字段数据始终会保持一致。

    比对pt-table-checksum工具3.0.3和3.0.4版本,发现问题出在:

    去掉这个if判断修改此bug

    附:

    pt-table-checksum关键过程

    引用自:http://keithlan.github.io/2016/05/25/pt_table_checksum/

    master> /!50108 SET @@binlog_format := ‘STATEMENT’/ 设置binlog-format为statement

    master> SET SESSION TRANSACTION ISOLATION LEVEL REPEATABLE READ 这是隔离级别为RR,利用RR的特性让数据在这一刻静止,就不用加锁了。

    master> checksums表:REPLACE INTO select设置this_cnt, this_crc(传递到slave,这其实设置slave每个chunk的cnt,crc),算法来自:COALESCE(LOWER(CONV(BIT_XOR(CAST(CRC32(主键) AS UNSIGNED)), 10, 16)), 0)

    slave> 当同步追上后,开始执行REPLACE INTO select,然后设置slave每个chunk的cnt,crc

    master> checksums表:update master_cnt,master_crc ,这是设置master每个chunk的cnt,crc

    slave> 当同步追上后,开始执行update master_cnt,master_crc ,这是设置master每个chunk的cnt,crc

    以上,基本完成。 接下来只需要去checksums表中找 master_cnt <> this_cnt or OR master_crc <> this_crc 的记录就行。

    在做查询校验时,select语句有两个小技巧:

    /*!40001 SQL_NO_CACHE */    不加载数据到innodb buffer里,避免大量的内存被换出
    FORCE INDEX 强制使用同样的索引

    相关文章

      网友评论

          本文标题:pt-table-checksum 3.0.4 bug 无法检查

          本文链接:https://www.haomeiwen.com/subject/lynuextx.html