万众期待的FlinkX1.12的Beta版今天正式在Github社区开源上线啦!这是FlinkX技术团队潜心打造的新版本的FlinkX,设计文档和使用文档已在社区中推送,大家可以随时下载查阅,喜欢的同学记得给我们点个Star哦~
本次上线的FlinkX1.12 Beta版做了以下更新:
1、FlinkX与FlinkStreamSQL融合
FlinkX作为分布式数据同步工具,FlinkStreamSQL基于开源的flink对实时sql进行扩展,我们将二者融合。融合后的FlinkX既支持原有的数据同步、实时采集,也支持SQL流与维表的Join,实现了一套插件完成数据的同步、转换与计算。
2、FlinkX增加transformer算子,支持SQL转换
在1.10及之前版本的FlinkX中,我们其实是不支持数据转换的,这对于ETL作业来说几乎是断了一条腿。在1.12版本,我们增加了transformer算子,用户在脚本中定义好数据类型以及SQL转换逻辑,FlinkX将会帮用户把ETL作业一步到位。在配置的SQL中,我们支持所有Flink原生语法及Function。
3、FlinkX插件Connector化
在1.10及之前版本的FlinkX中,我们的插件分为reader和writer。在1.12中,我们向Flink社区靠齐,插件不区分为reader和writer,统一命名为connector并遵循社区的规范。统一后的FlinkX connector与社区保持兼容,既社区可以使用FlinkX的connector,FlinkX也可以使用社区的connector。
4、FlinkX数据结构优化
在1.10及之前版本的FlinkX中,数据传输使用的是Row,在1.12中,我们向Flink社区靠齐,修改成了RowData。在之前版本实时采集到的数据在Row中是一个Map结构,没有平铺展开导致其实无法写到数据库对应的字段列的。在新版本中,我们将其展开使得实时采集的数据可以写到对应的字段列。这为后续异构数据源的数据还原迈下了坚实的一步。
5、FlinkX支持二阶段提交
目前FlinkX几乎所有插件都支持二阶段提交。
6、FlinkX支持数据湖 Iceberg
可以流式读取和写入Iceberg数据湖,未来也会加入Hudi支持。
7、FlinkX支持提交kubernetes
FlinkX支持使用native kuberentes方式以session和run-application模式提交任务。
为了方便大家更快的FlinkX1.12Beta版的使用,我们将钉钉交流群“袋鼠云开源框架技术交流群”(群号:30537511)进行线上答疑活动,在使用上有疑惑的同学欢迎加群提出问题,我们技术小哥会在群内帮大家解答。
各位小伙伴们是不是很心动呢?那就快来Github社区来第一时间体验FlinkX1.12 Beta版吧!
FlinkX1.12Beta版开源项目体验地址:
https://github.com/DTStack/flinkx
数栈是云原生—站式数据中台PaaS,我们在github和gitee上有一个有趣的开源项目:FlinkX,FlinkX是一个基于Flink的批流统一的数据同步工具,既可以采集静态的数据,也可以采集实时变化的数据,是全域、异构、批流一体的数据同步引擎。大家喜欢的话请给我们点个star!star!star!
github开源项目:https://github.com/DTStack/flinkx
gitee开源项目:https://gitee.com/dtstack_dev_0/flinkx
网友评论