Canal详解

作者: 彦帧 | 来源:发表于2020-07-22 23:23 被阅读0次

Canal详解
【Canal源码分析】整体架构
CanalAdmin 使用
canal 高可用介绍（4）
canal 启动介绍（2）
canal 数据消费介绍（3）
canal 组件介绍（1）
Canal部署各角色如何协作
Go操作阿里开源的框架Canal用于MySQL实时binlog同
Java 接入 canal

canal模拟mysql slave的交互协议，伪装自己为mysql slave，向mysql master发送dump协议；mysql master收到dump请求，开始推送binary log给slave(也就是canal)；canal解析binary log对象(原始为byte流)。

mysql主备复制实现

image

从上层来看，复制分成三步：

master将改变记录到二进制日志(binary log)中（这些记录叫做二进制日志事件，binary log events，可以通过show binlog events进行查看）；
slave将master的binary log events拷贝到它的中继日志(relay log)；
slave重做中继日志中的事件，将改变反映它自己的数据。

Binlog获取详解

Binlog发送接收流程，流程如下图所示:

image.png

首先，我们需要伪造一个slave，向master注册，这样master才会发送binlog event。注册很简单，就是向master发送COM_REGISTER_SLAVE命令，带上slave相关信息。这里需要注意，因为在MySQL的replication topology中，都需要使用一个唯一的server id来区别标示不同的server实例，所以这里我们伪造的slave也需要一个唯一的server id。
接着实现binlog的dump。MySQL只支持一种binlog dump方式，也就是指定binlog filename + position，向master发送COM_BINLOG_DUMP命令。在发送dump命令的时候，我们可以指定flag为BINLOG_DUMP_NON_BLOCK，这样master在没有可发送的binlog event之后，就会返回一个EOF package。不过通常对于slave来说，一直把连接挂着可能更好，这样能更及时收到新产生的binlog event。
Dump命令包图如下所示:

image.png

如上图所示,在报文中塞入binlogPosition和binlogFileName即可让master从相应的位置发送binlog event。
关于binlog event的细节，请参照我另一篇文章。 binlog详解

canal结构

image.png

说明：

server代表一个canal运行实例，对应于一个jvm，也可以理解为一个进程
instance对应于一个数据队列（1个server对应1..n个instance)，每一个数据队列可以理解为一个数据库实例。

Server设计

image.png

server代表了一个canal的运行实例，为了方便组件化使用，特意抽象了Embeded(嵌入式) / Netty(网络访问)的两种实现

Embeded : 对latency和可用性都有比较高的要求，自己又能hold住分布式的相关技术(比如failover)
Netty : 基于netty封装了一层网络协议，由canal server保证其可用性，采用的pull模型，当然latency会稍微打点折扣，不过这个也视情况而定。(阿里系的notify和metaq，典型的push/pull模型，目前也逐步的在向pull模型靠拢，push在数据量大的时候会有一些问题)

Instance设计

image.png

instance代表了一个实际运行的数据队列，包括了EventPaser,EventSink,EventStore等组件。

抽象了CanalInstanceGenerator，主要是考虑配置的管理方式：

manager方式：和你自己的内部web console/manager系统进行对接。(目前主要是公司内部使用，Otter采用这种方式)
spring方式：基于spring xml + properties进行定义，构建spring配置.

下面是canalServer和instance如何运行

canalServer.setCanalInstanceGenerator(new CanalInstanceGenerator() {

            public CanalInstance generate(String destination) {
                Canal canal = canalConfigClient.findCanal(destination);
                // 此处省略部分代码 大致逻辑是设置canal一些属性

                CanalInstanceWithManager instance = new CanalInstanceWithManager(canal, filter) {

                    protected CanalHAController initHaController() {
                        HAMode haMode = parameters.getHaMode();
                        if (haMode.isMedia()) {
                            return new MediaHAController(parameters.getMediaGroup(),
                                parameters.getDbUsername(),
                                parameters.getDbPassword(),
                                parameters.getDefaultDatabaseName());
                        } else {
                            return super.initHaController();
                        }
                    }

                    protected void startEventParserInternal(CanalEventParser parser, boolean isGroup) {
                        //大致逻辑是 设置支持的类型
                        //初始化设置MysqlEventParser的主库信息，这处抽象不好，目前只支持mysql
                    }

                };
                return instance;
            }
        });
        canalServer.start(); //启动canalServer

        canalServer.start(destination);//启动对应instance
        this.clientIdentity = new ClientIdentity(destination, pipeline.getParameters().getMainstemClientId(), filter);
        canalServer.subscribe(clientIdentity);// 发起一次订阅，当监听到instance配置时，调用generate方法注入新的instance

instance模块：

eventParser (数据源接入，模拟slave协议和master进行交互，协议解析)
eventSink (Parser和Store链接器，进行数据过滤，加工，分发的工作)
eventStore (数据存储)
metaManager (增量订阅&消费信息管理器)

EventParser设计

大致过程：

image.png

整个parser过程大致可分为几步：

Connection获取上一次解析成功的位置 (如果第一次启动，则获取初始指定的位置或者是当前数据库的binlog位点)
Connection建立链接，发送BINLOG_DUMP指令
// 0. write command number
// 1. write 4 bytes bin-log position to start at
// 2. write 2 bytes bin-log flags
// 3. write 4 bytes server id of the slave
// 4. write bin-log file name
Mysql开始推送Binaly Log
接收到的Binaly Log的通过Binlog parser进行协议解析，补充一些特定信息
// 补充字段名字，字段类型，主键信息，unsigned类型处理
传递给EventSink模块进行数据存储，是一个阻塞操作，直到存储成功
存储成功后，由CanalLogPositionManager定时记录Binaly Log位置

EventSink设计

image.png

说明：

数据过滤：支持通配符的过滤模式，表名，字段内容等
数据路由/分发：解决1:n (1个parser对应多个store的模式)
数据归并：解决n:1 (多个parser对应1个store)
数据加工：在进入store之前进行额外的处理，比如join

** 数据1:n业务 **

为了合理的利用数据库资源，一般常见的业务都是按照schema进行隔离，然后在mysql上层或者dao这一层面上，进行一个数据源路由，屏蔽数据库物理位置对开发的影响，阿里系主要是通过cobar/tddl来解决数据源路由问题。

所以，一般一个数据库实例上，会部署多个schema，每个schema会有由1个或者多个业务方关注

** 数据n:1业务 **

同样，当一个业务的数据规模达到一定的量级后，必然会涉及到水平拆分和垂直拆分的问题，针对这些拆分的数据需要处理时，就需要链接多个store进行处理，消费的位点就会变成多份，而且数据消费的进度无法得到尽可能有序的保证。

所以，在一定业务场景下，需要将拆分后的增量数据进行归并处理，比如按照时间戳/全局id进行排序归并.

EventStore设计

目前仅实现了Memory内存模式，后续计划增加本地file存储，mixed混合模式
借鉴了Disruptor的RingBuffer的实现思路
RingBuffer设计：

image.png

定义了3个cursor

Put : Sink模块进行数据存储的最后一次写入位置
Get : 数据订阅获取的最后一次提取位置
Ack : 数据消费成功的最后一次消费位置

借鉴Disruptor的RingBuffer的实现，将RingBuffer拉直来看：

image.png

实现说明：

Put/Get/Ack cursor用于递增，采用long型存储
buffer的get操作，通过取余或者与操作。(与操作： cusor & (size - 1) , size需要为2的指数，效率比较高)

HA机制设计

canal的ha分为两部分，canal server和canal client分别有对应的ha实现

canal server: 为了减少对mysql dump的请求，不同server上的instance要求同一时间只能有一个处于running，其他的处于standby状态.
canal client: 为了保证有序性，一份instance同一时间只能由一个canal client进行get/ack/rollback操作，否则客户端接收无法保证有序。

整个HA机制的控制主要是依赖了zookeeper的几个特性，watcher和EPHEMERAL节点(和session生命周期绑定)，可以看下我之前zookeeper的相关文章。

Canal Server:

image.png

大致步骤：

canal server要启动某个canal instance时都先向zookeeper进行一次尝试启动判断 (实现：创建EPHEMERAL节点，谁创建成功就允许谁启动)
创建zookeeper节点成功后，对应的canal server就启动对应的canal instance，没有创建成功的canal instance就会处于standby状态
一旦zookeeper发现canal server A创建的节点消失后，立即通知其他的canal server再次进行步骤1的操作，重新选出一个canal server启动instance.
canal client每次进行connect时，会首先向zookeeper询问当前是谁启动了canal instance，然后和其建立链接，一旦链接不可用，会重新尝试connect.

Canal Client的方式和canal server方式类似，也是利用zookeeper的抢占EPHEMERAL节点的方式进行控制.

Canal详解
canal模拟mysql slave的交互协议，伪装自己为mysql slave，向mysql master发送d...
【Canal源码分析】整体架构
本文详解canal的整体架构。一、整体架构说明： server代表一个canal运行实例，对应于一个jvm i...
CanalAdmin 使用
安装 canal-admin 参考 Canal Admin QuickStart · alibaba/canal ...
canal 高可用介绍（4）
系列 canal 组件介绍（1） canal 启动介绍（2） canal 数据消费介绍（3） canal 高可用介...
canal 启动介绍（2）
系列 canal 组件介绍（1） canal 启动介绍（2） canal 数据消费介绍（3） canal 高可用介...
canal 数据消费介绍（3）
系列 canal 组件介绍（1） canal 启动介绍（2） canal 数据消费介绍（3） canal 高可用介...
canal 组件介绍（1）
系列 canal 组件介绍（1） canal 启动介绍（2） canal 数据消费介绍（3） canal 高可用介...
Canal部署各角色如何协作
Canal中的角色 Canal中包含三种角色，分别是： Canal server，通过canal-deployer...
Go操作阿里开源的框架Canal用于MySQL实时binlog同
第一章 Canal 服务端搭建 1.1 认识 Canal 框架 canal 官方开源github地址： canal...
Java 接入 canal
canal.adapter | 问题 canal.adapter | 原理 canal.adapter 会给它配置...