使用ELK离线同步Mysql数据（非实时）

作者: DreamsonMa | 来源:发表于2019-04-20 00:42 被阅读0次

使用ELK离线同步Mysql数据（非实时）
Mysql实时同步Impala
01.Flink实时数据管理—自定义MysqlSource +
数据技术篇
Welcome Back，DataX
DATAX 同步mysql 数据到ES步骤
Oracle GoldenGate实时同步oracle数据到my
mysql数据同步ES问题汇总
使用datax的RDBMSReader抽取hive表
DataX 的配置及使用

该文内容为利用Logstash的 logstash-input-jdbc 插件同步Mysql数据，实现Mysql到ElasticSearch的数据异构。这个方案非实时，调度任务最短间延1m。

新增方案

Logstash的input-jdbc-plugin插件天然支持全量，增量同步。

更新方案

使用一个更新时间的字段，作为每次Logstash增量更新的tracking_column。这样Logstash每次增量更新就会根据更新时间来作为标记。索引的document_id必须是数据库中的主键，这样在每次增量更新的时候，之前ID相同的数据就会被覆盖，从而达到update的效果。

删除方案

删除是建立在上面更新的原理之上，就是再加一个删除标记的字段作软删除。

安装ELK

很简单，按官网文档操作一遍就行。这里给出安装文档连接。文档写得很清晰，基本一看就懂，安装方法也多样。完美。Elasticsearch | Logstash | Kibana

核心配置

添加配置后，重启logstash，等一会儿就能看到结果。配置很简单，对着文档看看就能理解。快速略过看结果。。

[root@local14 ~]# /usr/share/logstash/bin/logstash-plugin install logstash-input-jdbc
[root@local14 ~]# mkdir -p /tmp/logstash ；touch /tmp/logstash/last_run_value.txt
[root@local14 ~]# cat /etc/logstash/conf.d/logstash-mysql.conf 
input {
    stdin {
    }
    jdbc {
        jdbc_connection_string => "jdbc:mysql://192.168.56.101:3306/test?autoReconnect=true&characterEncoding=UTF8"
        jdbc_user => "root"
        jdbc_password => "123456"
        jdbc_driver_library => "/mnt/mysql-connector-java-5.1.30.jar"
        jdbc_driver_class => "com.mysql.jdbc.Driver"
        jdbc_paging_enabled => "true"
        jdbc_page_size => "1000"
        statement => "SELECT * from user where  test_id > :sql_last_value"
        schedule => "* * * * *"
        record_last_run => true
        last_run_metadata_path => "/tmp/logstash/last_run_value.txt"
        use_column_value => true
        lowercase_column_names =>true
        tracking_column => "test_id"
        tracking_column_type => "numeric"
        type => "jdbc"
    }
}

filter {
    json {
        source => "message"
        remove_field => ["message"]
    }
}

output {
  elasticsearch {
    hosts => ["http://localhost:9200"]
    index => "test"
    document_type => "user"
    document_id => "%{test_id}"
    #user => "elastic"
    #password => "changeme"
  }
  stdout {
    codec => json_lines
  }
}
[root@local14 ~]# systemctl start logstash ； systemctl enable logstash
[root@local14 ~]# tail -f /var/log/logstash/logstash-plain.log 
[2019-04-19T20:42:00,231][INFO ][logstash.inputs.jdbc     ] (0.000951s) SELECT version()
[2019-04-19T20:42:00,236][INFO ][logstash.inputs.jdbc     ] (0.002074s) SELECT version()
[2019-04-19T20:42:00,263][INFO ][logstash.inputs.jdbc     ] (0.010025s) SELECT count(*) AS `count` FROM (SELECT * from user where  test_id > 491604) AS `t1` LIMIT 1
[2019-04-19T20:43:00,045][INFO ][logstash.inputs.jdbc     ] (0.000790s) SELECT version()
[2019-04-19T20:43:00,053][INFO ][logstash.inputs.jdbc     ] (0.000930s) SELECT version()
[2019-04-19T20:43:00,058][INFO ][logstash.inputs.jdbc     ] (0.001285s) SELECT count(*) AS `count` FROM (SELECT * from user where  test_id > 491604) AS `t1` LIMIT 1
[2019-04-19T20:43:00,101][INFO ][logstash.inputs.jdbc     ] (0.015010s) SELECT * FROM (SELECT * from user where  test_id > 491604) AS `t1` LIMIT 1000 OFFSET 0

对比同步结果