基于Flink的实时合并报表重分类

作者: Tekkaman998 | 来源:发表于2021-04-02 16:45 被阅读0次

基于Flink的实时合并报表重分类
实时数仓-Flink窗口的实现与应用
Flink视频教程_基于Flink流处理的动态实时电商实时分析系
Flink--EventTime中WaterMark知识点扫盲
今日份打卡 134/365
Flink CDC 系列 - 同步 MySQL 分库分表，构建
应用案例 | 美团点评基于 Flink 的实时数仓建设实践
进击的 Flink：网易云音乐实时数仓建设实践
数据中台之基石：基于Flink SQL构建实数据仓库
快手基于 Flink 的持续优化与实践

合并报表执行合并前的重分类操作通常采用批处理方式，往往需要按T+1或按小时周期处理，按T+1更新数据无法满足月结期间财务人员的对账需求，按小时全量加载数据造成系统压力过大用户体验不佳，增量加载又需要开发复杂的增量处理逻辑，故需要一种简单高效的实时重分类方案。Flink从1.11开始加入了对CDC（Change Data Capture,变更数据获取）的原生支持，使得流处理的实时重分类计算成为可能。

方案介绍：

image.png

合并报表实时重分类面临的一大挑战是如何获取会计凭证的changelog数据流，此方案中使用Debezium实时采集Postgresql数据库的wal日志，将格式化后的changelog流写入Kafka的指定Topic中，使用FlinkSQL将凭证流关联相关维表后通过重分类逻辑将按维度汇总的数据流输出到HANA目标表中。

Debezium：

在本方案中的作用是通过生成一个KafkaConnector以Postgres为Source，Kafka为Sink，将wal日志解析成debezium的标准格式写入到kafka中，可以使用Json或Avro格式，这里使用Avro格式，相比Json格式，Avro格式表的Schema信息不用冗余存放，只存放数据信息，可大大节省数据占用在kafka的磁盘空间，提高传输效率。

创建Debezium Kafka Connector的代码

{
    "name": "inventory-connector",
    "config": {
        "name": "inventory-connector",
        "connector.class": "io.debezium.connector.postgresql.PostgresConnector",
        "tasks.max": "1",
        "database.hostname": "postgres",
        "database.port": "5432",
        "database.dbname": "postgres",
        "database.user": "***",
        "database.password": "***",
        "database.server.name" : "postgres",
        "database.include.list": "public",  
        "database.history.kafka.bootstrap.servers": "kafka:9092",  
        "database.history.kafka.topic": "schema-changes.inventory",
        "table.include.list": "public.acdoca",
        "snapshot.mode": "always",
        "producer.override.acks": "1",
        "producer.override.compression.type": "snappy",
        "producer.override.linger.ms": "50",
        "producer.override.batch.size": "327680",
        "key.converter":"org.apache.kafka.connect.storage.StringConverter",
        "value.converter":"io.confluent.connect.avro.AvroConverter",
        "value.converter.schema.registry.url":"http://schema-registry:8081",
        "decimal.handling.mode": "string"
    }
}

Kafka：

创建KafkaConnector后kafka首先会启动一个SnapshotTask，对源表加锁，并记录日志当前的LSN位置，然后执行全量查询，获取全量数据，释放锁后通过之前记录的LSN位置开启实时日志采集任务。因为同步到kafka的Topic中partitions只有一个，所以保证了数据写入的顺序。

写入到Kafka的数据：

image.png

Flink：

负责从Kafka获取凭证数据并关联相关维表，考虑到有的维表数据量大及维表后续数据更新问题，通过缓存+LRU算法解决。使用flinksql创建源表source_acdoca，维表dim_prps，目标表dwd_final，通过运行聚合函数将源表和维表关联后的数据写入dwd_final，flink可以自动识别并处理changelog流，当源表更新后，目标表自动按主键实时更新。

String acdoca_ddl = "create table if not exists source_acdoca(\n" +
                "rclnt string comment 'rclnt',\n" +
                "rldnr string comment 'rldnr',\n" +
                "rbukrs string comment 'rbukrs',\n" +
                "gjahr string comment 'gjahr',\n" +
                "belnr string comment 'belnr',\n" +
                "docln string comment 'docln',\n" +
                "poper string comment 'poper',\n" +
                "ps_posid string comment 'ps_posid',\n" +
                "ps_pspid string comment 'ps_pspid',\n" +
                "hsl string comment 'hsl',\n" +
                "PRIMARY KEY (rbukrs,gjahr,belnr,docln) NOT ENFORCED\n" +
                ")\n" +
                "with(\n" +
                "'connector' = 'kafka',\n" +
                "'format' = 'debezium-avro-confluent',\n" +
                "'debezium-avro-confluent.schema-registry.url' = 'http://confluent:8081/',\n" +
                "'topic' = 'postgres.public.acdoca',\n" +
                "'properties.bootstrap.servers' = 'kafka:9092',\n" +
                "'properties.group.id' = 'flink-analysis',\n" +
                "'scan.startup.mode' = 'earliest-offset'\n" +
                ")";

String prps_ddl = "create table if not exists dim_prps(\n" +
                "pspnr string comment 'pspnr',\n" +
                "posid string comment 'posid',\n" +
                "usr02 string comment 'usr02',\n" +
                "PRIMARY KEY (pspnr) NOT ENFORCED\n" +
                ")\n" +
                "with(\n" +
                "'connector.type' = 'jdbc',\n" +
                "'connector.url' = 'jdbc:postgresql://postgres:5432/postgres',\n" +
                "'connector.table' = 'public.prps',\n" +
                "'connector.driver' = 'org.postgresql.Driver',\n" +
                "'connector.username' = '***',\n" +
                "'connector.password' = '***',\n" +
                //"'connector.scan.fetch-size' = '200',\n" +
                "'connector.lookup.cache.max-rows' = '1000',\n" +
                "'connector.lookup.cache.ttl' = '60000'\n" +
                ")";

String mysqlDDL = "CREATE TABLE if not exists dwd_final (\n" +
                "gjahr string comment 'gjahr',\n" +
                "poper string comment 'poper',\n" +
                "rbukrs string comment 'rbukrs',\n" +
                "usr02 string comment 'usr02',\n" +
                "ps_posid string comment 'ps_posid',\n" +
                "ps_pspid string comment 'ps_pspid',\n" +
                "hsl decimal(10,2) comment 'hsl',\n" +
                "PRIMARY KEY (gjahr,poper,rbukrs,usr02) NOT ENFORCED\n" +
                ") WITH (\n" +
                "'connector' = 'jdbc',\n" +
                "'url' = 'jdbc:mysql://mysql:3308/mysql?serverTimezone=UTC&useUnicode=true&characterEncoding=utf8&useSSL=false',\n" +
                "'table-name' = 'dwd_final',\n" +
                "'driver' = 'com.mysql.jdbc.Driver',\n" +
                "'username' = '***',\n" +
                "'password' = '***'\n" +
                ")";

EnvironmentSettings settings = EnvironmentSettings
                .newInstance()
                .useBlinkPlanner()
                .inStreamingMode()
                .build();
TableEnvironment tEnv = TableEnvironment.create(settings);
tEnv.executeSql(acdoca_ddl);
tEnv.executeSql(prps_ddl);
tEnv.executeSql(mysqlDDL);
tEnv.executeSql("insert into dwd_final select t1.gjahr,t1.poper,t1.rbukrs,t1.ps_posid,t1.ps_pspid,t2.usr02,sum(cast(t1.hsl as DECIMAL(10,2))) as hsl from source_acdoca as t1 inner join dim_prps as t2 on t1.ps_posid=t2.posid group by t1.gjahr,t1.poper,t1.rbukrs,t1.ps_posid,t1.ps_pspid,t2.usr02");

运行中的Flink Job：

image.png

从kafka获取到的changelog流数据：

image.png

目标表数据：

image.png

基于Flink的实时合并报表重分类
合并报表执行合并前的重分类操作通常采用批处理方式，往往需要按T+1或按小时周期处理，按T+1更新数据无法满足月结期...
实时数仓-Flink窗口的实现与应用
本文档整理于Flink社区直播课Flink窗口是实时处理非常重要的技术，广泛用于实时ETL、实时报表以及一些实时的...
Flink视频教程_基于Flink流处理的动态实时电商实时分析系
Flink视频教程_基于Flink流处理的动态实时电商实时分析系统课程学习地址：http://www.xuetu...
Flink--EventTime中WaterMark知识点扫盲
基于flink-1.8.1 基于flink官网概述实时计算中，数据时间比较敏感。有eventTime和proc...
今日份打卡 134/365
技术文章基于Flink构建实时数仓离线数仓已经很常见文中展示了通过Flink的使用，取代原有Hive模块，取得实时...
Flink CDC 系列 - 同步 MySQL 分库分表，构建
作者：罗宇侠本篇教程将展示如何使用 Flink CDC 构建实时数据湖，并处理分库分表合并同步的场景。Flink...
应用案例 | 美团点评基于 Flink 的实时数仓建设实践
本文是美团技术团队分享的美团点评基于 Flink 的实时数仓建设实践，Apache Flink 社区公众号（ Ve...
进击的 Flink：网易云音乐实时数仓建设实践
如何基于 Flink 的新 API 升级实时数仓架构？背景介绍网易云音乐从 2018 年开始搭建实时计算平台，...
数据中台之基石：基于Flink SQL构建实数据仓库
OPPO数据中台之基石：基于Flink SQL构建实数据仓库 - OPPO 实时数仓的演进思路； - 基于 Fli...
快手基于 Flink 的持续优化与实践
本文由快手实时计算负责人董亭亭分享，主要介绍快手基于 Flink 的持续优化与实践的介绍。内容包括：Flink 稳...