基于binlog的使用摸索

作者: __晨风__ | 来源:发表于2021-03-20 23:27 被阅读0次

基于binlog的使用摸索
cannal使用
MySQL的Binlog的格式和XA事务
binlog轮换和清理
基于 Canal 和 Kafka 实现 MySQL 的 Binl
MySQL主从数据不一致原因
mysql binlog
MySQL表闪回（完结）
Binlog（二）之文件结构与文件解读
MySql主从不同步原因分析及解决方案

因为作业系统，难免会遇到这样一些问题，就是报表，各种纬度查询，而我们项目又不是基于大数据框架来做的，所以在满足多维度方面，以及实时性要求方面就稍显逊色

如果基于现有系统业务，让你去实现一个统计类报表，你的方案？

第一种方案，各种表数据关联，然后满足业务要求。问题来了，我们有些表用了分表，有些表又是跨库了，怎么办？

方案二，我们建一张大表，然后把关联表的数据都往这张大表里塞，然后去查询。这里的问题就是，这张表很快就会被撑爆掉，直到最后查不了。后来我们引入es，但是前提还是基于这张大表，比如我们的库存流水记录

现有实现，我们通过定时任务捞取增量数据然后往es推送，然后查询直接通过es查询，解决了多维度的查询问题。这里我们发现一个问题，那就是报表的实时性。如果现场业务允许你的延迟，那么你可以这么做。

为了低延时，我们引入binlog方案

binlog方案是基于目前数据库的binlog，我们直接读取过来，然后直接推送es。

这里需要考虑以下问题？

如何获取binlog？binlog和作业系统如何打通？binlog的解析？binlog的批量推送es，es能扛多大并发？

如何获取binlog,这里我们是主从备份的方案中获取灵感，再加一个备库，接到主库上。接到之后，我们直接抛到kafka，这里这样做的目地就是binlog的量非常大，也是考虑到kafka出色的并发能力，目前是整库迁移方案，所以有个问题就是如果这个库的表数量很大，那么我们便利我们所需要的表，也很耗时，这就违背了我们的初衷。后期需要迭代表的迁移方案。

发布=订阅，我们首先要知道的就是，binlog本身就是有顺序的，然后通过kafka一批过来，而我们的作业系统又是集群架构，这就会因为并发导致一系列问题。比如，因为最新操作的binlog，却因为作业系统并发最先执行，而早期的binlog却最后执行，这就造成了老数据覆盖新数据。这是一个很严重的问题。所以我们就做了这样这个规定，每张表，我们使用一个主题，任何时刻只允许一台机器消费。

所以建立好这样的规则之后，我们就拿到了这张表的binlog，并且一定是顺序拿到的。接到数据操作之后，开始解析，解析就是把binlog转化为我们的要操作的数据。

binlog结构，每一步数据表的操作，都会有一条binlog，分为两部分，操作头，操作数。操作头里包含了我们的表名，以及关键字，比如insert,update等。操作数分为，操作前和操作后的数据两部分。

一批解析完，然后逐条推送es，有必要这样做？

因为我们每拿到一批，已经是有先后顺序，那我们只要拿到这一批中，操作时间最新的那一条不就可以么，这样前面的全部省略，推送es的并发也就会降下来

目前该方案还在摸索阶段，成熟以后，会再做一次分享