flink sql 流批一体化

作者: NazgulSun | 来源:发表于2021-01-28 18:28 被阅读0次

流批一体化的实现逻辑。

https://www.cnblogs.com/wynjauu/articles/11654838.html
flinksql 追加模式和缩进模式。
（有的算子在收到一条新数据之后，需要做update。比如 groupByAndCount，需要delete old state and insert new state）
https://zhuanlan.zhihu.com/p/157265381
【这篇文章写的非常好】

1，对于上层用户，也就是table api & SQL
2，主要变化在 SQL->logical plan -> execution plan这一层，之前是分开来处理，
目前是统一一套框架。这得益与中国alibaba贡献的blink planer 执行引擎。主要特色:

Flink SQL 利用 Apache Calcite 将 SQL 翻译为关系代数表达式，使用表达式折叠（Expression Reduce），下推优化（Predicate / Projection Pushdown ）
等优化技术生成物理执行计划（Physical Plan），利用 Codegen 技术生成高效执行代码。
Flink SQL 使用高效的二进制数据存储结构 BinaryRow 加速计算性能；
使用 Mini-batch 攒批提高吞吐，降低两层聚合时由 Retraction 引起的数据抖动；
聚合场景下数据倾斜处理和 Top-N 排序的优化原理。

3.join的优化：
mergejoin，hashjoin,broadcastJoin
https://blog.csdn.net/lp284558195/article/details/80717219

最优化的是小标做 hashtable，join 大表。
两个大表做外存，mergesortjoin。

网友评论

本文标题：flink sql 流批一体化

本文链接：https://www.haomeiwen.com/subject/udextltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

flink sql 流批一体化

流批一体化的实现逻辑。

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读