Maxwell安装和使用

作者: Yobhel | 来源:发表于2023-11-02 09:05 被阅读0次

Maxwell的安装和使用
maxwell和kafka安装
Maxwell + spark + Kafka安装
maxwell简单部署使用
MySQL Binlog 解析工具 Maxwell 详解
mysql_CDC方法maxwell基本使用和配置
node、nvm 多版本及切换
MaxWell+kafka解析mysql binlog
C4D渲染器-Maxwell-核心理论
利用Maxwell组件实时监听Mysql的binlog日志

第1章 Maxwell简介

1.1 Maxwell概述

Maxwell 是由美国Zendesk公司开源，用Java编写的MySQL变更数据抓取软件。它会实时监控Mysql数据库的数据变更操作（包括insert、update、delete），并将变更数据以 JSON 格式发送给 Kafka、Kinesi等流数据处理平台。官网地址：http://maxwells-daemon.io/

1.2 Maxwell输出数据格式

image.png

注：Maxwell输出的json字段说明：

字段	解释
database	变更数据所属的数据库
table	表更数据所属的表
type	数据变更类型
ts	数据变更发生的时间
xid	事务id
commit	事务提交标志，可用于重新组装事务
data	对于insert类型，表示插入的数据；对于update类型，标识修改之后的数据；对于delete类型，表示删除的数据
old	对于update类型，表示修改之前的数据，只包含变更字段

第2章 Maxwell原理

Maxwell的工作原理是实时读取MySQL数据库的二进制日志（Binlog），从中获取变更数据，再将变更数据以JSON格式发送至Kafka等流处理平台。

2.1 MySQL二进制日志

二进制日志（Binlog）是MySQL服务端非常重要的一种日志，它会保存MySQL数据库的所有数据变更记录。Binlog的主要作用包括主从复制和数据恢复。Maxwell的工作原理和主从复制密切相关。

2.2 MySQL主从复制

MySQL的主从复制，就是用来建立一个和主数据库完全一样的数据库环境，这个数据库称为从数据库。
1）主从复制的应用场景如下：
（1）做数据库的热备：主数据库服务器故障后，可切换到从数据库继续工作。
（2）读写分离：主数据库只负责业务数据的写入操作，而多个从数据库只负责业务数据的查询工作，在读多写少场景下，可以提高数据库工作效率。
2）主从复制的工作原理如下：
（1）Master主库将数据变更记录，写到二进制日志(binary log)中
（2）Slave从库向mysql master发送dump协议，将master主库的binary log events拷贝到它的中继日志(relay log)
（3）Slave从库读取并回放中继日志中的事件，将改变的数据同步到自己的数据库。

image.png

2.3 Maxwell原理

很简单，就是将自己伪装成slave，并遵循MySQL主从复制的协议，从master同步数据。

第3章 Maxwell部署

3.1安装Maxwell

1）下载安装包
（1）地址：https://github.com/zendesk/maxwell/releases/download/v1.29.2/maxwell-1.29.2.tar.gz

注：Maxwell-1.30.0及以上版本不再支持JDK1.8。
（2）将安装包上传到hadoop101节点的/opt/software目录

2）将安装包解压至/opt/module

[yobhel@hadoop101 maxwell]$ tar -zxvf maxwell-1.29.2.tar.gz -C /opt/module/

3）修改名称

[yobhel@hadoop101 module]$ mv maxwell-1.29.2/ maxwell

3.2 配置MySQL

3.2.1 启用MySQL Binlog

MySQL服务器的Binlog默认是未开启的，如需进行同步，需要先进行开启。
1）修改MySQL配置文件/etc/my.cnf

[yobhel@hadoop101 ~]$ sudo vim /etc/my.cnf

2）增加如下配置

[mysqld]

#数据库id
server-id = 1
#启动binlog，该参数的值会作为binlog的文件名
log-bin=mysql-bin
#binlog类型，maxwell要求为row类型
binlog_format=row
#启用binlog的数据库，需根据实际情况作出修改
binlog-do-db=edu

注：MySQL Binlog模式

Statement-based：基于语句，Binlog会记录所有写操作的SQL语句，包括insert、update、delete等。
- 优点：节省空间
- 缺点：有可能造成数据不一致，例如insert语句中包含now()函数。
Row-based：基于行，Binlog会记录每次写操作后被操作行记录的变化。
- 优点：保持数据的绝对一致性。
- 缺点：占用较大空间。
mixed：混合模式，默认是Statement-based，如果SQL语句可能导致数据不一致，就自动切换到Row-based。

Maxwell要求Binlog采用Row-based模式。
3）重启MySQL服务

[yobhel@hadoop101 ~]$ sudo systemctl restart mysqld

3.2.2 创建Maxwell所需数据库和用户

Maxwell需要在MySQL中存储其运行过程中的所需的一些数据，包括binlog同步的断点位置（Maxwell支持断点续传）等等，故需要在MySQL为Maxwell创建数据库及用户。

1）创建数据库

msyql> CREATE DATABASE maxwell;

2）调整MySQL数据库密码级别

mysql> set global validate_password_policy=0;
mysql> set global validate_password_length=4;

3）创建Maxwell用户并赋予其必要权限

mysql> CREATE USER 'maxwell'@'%' IDENTIFIED BY 'maxwell';
mysql> GRANT ALL ON maxwell.* TO 'maxwell'@'%';
mysql> GRANT SELECT, REPLICATION CLIENT, REPLICATION SLAVE ON *.* TO 'maxwell'@'%';

3.3 配置Maxwell

1）修改Maxwell配置文件名称

[yobhel@hadoop101 maxwell]$ cd /opt/module/maxwell
[yobhel@hadoop101 maxwell]$ cp config.properties.example config.properties

2）修改Maxwell配置文件

[yobhel@hadoop101 maxwell]$ vim config.properties

#Maxwell数据发送目的地，可选配置有stdout|file|kafka|kinesis|pubsub|sqs|rabbitmq|redis
producer=kafka
#目标Kafka集群地址
kafka.bootstrap.servers=hadoop101:9092,hadoop103:9092
#目标Kafka topic，可静态配置，例如:maxwell，也可动态配置，例如：%{database}_%{table}
kafka_topic=maxwell

#MySQL相关配置
host=hadoop101
user=maxwell
password=maxwell
jdbc_options=useSSL=false&serverTimezone=Asia/Shanghai

第4章 Maxwell使用

4.1 启动Kafka集群

若Maxwell发送数据的目的地为Kafka集群，则需要先确保Kafka集群为启动状态。

4.2 Maxwell启停

1）启动Maxwell

[yobhel@hadoop101 ~]$ /opt/module/maxwell/bin/maxwell --config /opt/module/maxwell/config.properties --daemon

2）停止Maxwell

[yobhel@hadoop101 ~]$ ps -ef | grep com.zendesk.maxwell.Maxwell | grep -v grep | grep maxwell | awk '{print $2}' | xargs kill -9

3）Maxwell启停脚本
（1）创建并编辑Maxwell启停脚本

[yobhel@hadoop101 bin]$ vim mxw.sh

（2）脚本内容如下

#!/bin/bash

MAXWELL_HOME=/opt/module/maxwell

status_maxwell(){
    result=`ps -ef | grep com.zendesk.maxwell.Maxwell | grep -v grep | wc -l`
    return $result
}


start_maxwell(){
    status_maxwell
    if [[ $? -lt 1 ]]; then
        echo "启动Maxwell"
        $MAXWELL_HOME/bin/maxwell --config $MAXWELL_HOME/config.properties --daemon
    else
        echo "Maxwell正在运行"
    fi
}


stop_maxwell(){
    status_maxwell
    if [[ $? -gt 0 ]]; then
        echo "停止Maxwell"
        ps -ef | grep com.zendesk.maxwell.Maxwell | grep -v grep | awk '{print $2}' | xargs kill -9
    else
        echo "Maxwell未在运行"
    fi
}


case $1 in
    start )
        start_maxwell
    ;;
    stop )
        stop_maxwell
    ;;
    restart )
       stop_maxwell
       start_maxwell
    ;;
esac

（3）增加脚本权限

[yobhel@hadoop101 bin]$ chmod +x mxw.sh

4.2 增量数据同步
1）启动Kafka消费者

[yobhel@hadoop101 kafka]$ kafka-console-consumer.sh --bootstrap-server hadoop101:9092 --topic maxwell

2）启动 Maxwell

[yobhel@hadoop101 data_mocker]$ mxw.sh start

3）模拟生成数据

[yobhel@hadoop101 data_mocker]$ java -jar edu2021-mock-2022-02-22.jar

4）观察Kafka消费者

{"database":"edu","table":"order_info","type":"update","ts":1645446210,"xid":280876,"commit":true,"data":{"id":23355,"user_id":170,"origin_amount":200.00,"coupon_reduce":0.00,"final_amount":200.00,"order_status":"1002","out_trade_no":"614348837586115","trade_body":"IDE中快速配置Maven与Git等1件商品","session_id":"a7f66422-d315-4b30-a89a-15139c0a58c2","province_id":12,"create_time":"2022-02-21 18:44:12","expire_time":"2022-02-21 18:59:12","update_time":"2022-02-21 18:44:33"},"old":{"order_status":"1001","update_time":null}}
{"database":"edu","table":"order_info","type":"update","ts":1645446210,"xid":280978,"commit":true,"data":{"id":23360,"user_id":410,"origin_amount":200.00,"coupon_reduce":0.00,"final_amount":200.00,"order_status":"1002","out_trade_no":"412589392815317","trade_body":"尚硅谷大数据技术之HadoopHA等1件商品","session_id":"14283f2e-eb16-483d-9df0-438bd27f0c5a","province_id":24,"create_time":"2022-02-21 21:16:11","expire_time":"2022-02-21 21:31:11","update_time":"2022-02-21 21:16:30"},"old":{"order_status":"1001","update_time":null}}

4.3 历史数据全量同步

上一节，我们已经实现了使用Maxwell实时增量同步MySQL变更数据的功能。但有时只有增量数据是不够的，我们可能需要使用到MySQL数据库中从历史至今的一个完整的数据集。这就需要我们在进行增量同步之前，先进行一次历史数据的全量同步。这样就能保证得到一个完整的数据集。

4.3.1 Maxwell-bootstrap

Maxwell提供了bootstrap功能来进行历史数据的全量同步，命令如下：

[yobhel@hadoop101 maxwell]$ /opt/module/maxwell/bin/maxwell-bootstrap --database edu --table user_info --config /opt/module/maxwell/config.properties

4.3.2 boostrap数据格式

采用bootstrap方式同步的输出数据格式如下：

{
    "database": "fooDB",
    "table": "barTable",
    "type": "bootstrap-start",
    "ts": 1450557744,
    "data": {}
}
{
    "database": "fooDB",
    "table": "barTable",
    "type": "bootstrap-insert",
    "ts": 1450557744,
    "data": {
        "txt": "hello"
    }
}
{
    "database": "fooDB",
    "table": "barTable",
    "type": "bootstrap-insert",
    "ts": 1450557744,
    "data": {
        "txt": "bootstrap!"
    }
}
{
    "database": "fooDB",
    "table": "barTable",
    "type": "bootstrap-complete",
    "ts": 1450557744,
    "data": {}
}

注意事项：

1）第一条type为bootstrap-start和最后一条type为bootstrap-complete的数据，是bootstrap开始和结束的标志，不包含数据，中间的type为bootstrap-insert的数据才包含数据。

2）一次bootstrap输出的所有记录的ts都相同，为bootstrap开始的时间。

Maxwell的安装和使用
安装准备工作 Maxwell=MySQL+Kafka.1.安装MySQL请参照之前的博客。在安装完MySQL之后，...
maxwell和kafka安装
Kafka安装解压kafka安装包 tar -xvzf kafka_2.12-2.1.1.tg 将start.s...
Maxwell + spark + Kafka安装
问题现在有一个需求，在一定时间段（15分钟）统计交易情况，Hive的话是可以实现功能，但是效率低，最终决定使用S...
maxwell简单部署使用
详细资料可以参考maxwell官网说明：本文主要是关于配置maxwell监听mysql的数据修改并实时将修改内容同...
MySQL Binlog 解析工具 Maxwell 详解
MySQL Binlog 解析工具 Maxwell 详解 maxwell 简介 Maxwell是一个能实时读取My...
mysql_CDC方法maxwell基本使用和配置
maxwell 读取binlog 参考网址 docker pull zendesk/maxwell 在docker...
node、nvm 多版本及切换
一、node 安装和使用 1、检测安装 2、安装 n 命令 3、安装和切换node版本二、nvm 安装和使用 1...
MaxWell+kafka解析mysql binlog
1. maxwell简介 maxwell，可以监听mysql binlog文件，实时进行更新，以json格式，写...
C4D渲染器-Maxwell-核心理论
Maxwell渲染器具备插件版和Studio独立版两种。我使用的是4.2.0.3版本，目前是最新版。它可以支持市面...
利用Maxwell组件实时监听Mysql的binlog日志
如何使用Maxwell实时监听Mysql的binlog日志，并且把解析的json格式数据发送到kafka窗口具体...

Maxwell安装和使用

第1章 Maxwell简介

1.1 Maxwell概述

1.2 Maxwell输出数据格式

第2章 Maxwell原理

2.1 MySQL二进制日志

2.2 MySQL主从复制

2.3 Maxwell原理

第3章 Maxwell部署

3.1安装Maxwell

3.2 配置MySQL

3.2.1 启用MySQL Binlog

3.2.2 创建Maxwell所需数据库和用户

第4章 Maxwell使用

4.1 启动Kafka集群

4.2 Maxwell启停

4.3 历史数据全量同步

4.3.1 Maxwell-bootstrap

4.3.2 boostrap数据格式

相关文章

Maxwell的安装和使用

maxwell和kafka安装

Maxwell + spark + Kafka安装

maxwell简单部署使用

MySQL Binlog 解析工具 Maxwell 详解

mysql_CDC方法maxwell基本使用和配置

node、nvm 多版本及切换

MaxWell+kafka解析mysql binlog

C4D渲染器-Maxwell-核心理论

利用Maxwell组件实时监听Mysql的binlog日志

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读