FLink的窗口机制与流处理Join的方案

作者: Bill_Lin | 来源:发表于2017-09-28 21:56 被阅读189次

FLink的窗口机制与流处理Join的方案
Flink滑动窗口原理与细粒度滑动窗口的性能问题
关于 Flink checkpoint，都在这里（一）
数据处理能力相差 2.4 倍？Flink 使用 RocksDB
Apache Flink——状态编程
stream-window
Spark架构模式与Flink的对比
Flink详解系列之六--窗口机制
Flink 流流关联( Interval Join)总结
浅谈Flink批模式Adaptive Hash Join

FLink底层引擎是一个流式引擎，支持流处理和批处理，而window是streaming到batch的桥梁。因为流处理过程中，数据是源源不断流进来的，需要对数据进行实时处理的话，可以通过来一个消息处理一个的方式，也可以通过把一段时间内的数据聚合之后，再一起处理的形式，此时需要定义一个窗口来收集过去那段时间内的数据再进行处理。

Flink 提出了三种时间的概念，分别是event time（事件时间：事件发生时的时间），ingestion time（摄取时间：事件进入流处理系统的时间），processing time（处理时间：消息被计算处理的时间）。

窗口类型

窗口可以是时间驱动的（Time Window，例如：每30秒钟），也可以是数据驱动的（Count Window，例如：每一百个元素）。一种经典的窗口分类为：

Tumbling window （滚动窗口，无重叠）

滚动窗口分配器将每个元素分配给指定窗口大小的窗口。滚动窗口具有固定的大小并且不重叠。例如，如果指定大小为5分钟的滚动窗口，则将评估当前窗口，并且每五分钟将启动一个新窗口，如下图所示。

Flink流类型

接下来，对join的一个实现类WindowJoin进行分析。基本思想为在一个时间窗内对两条数据结构为键值对数据流进行inner join操作。

重要参数配置：根据Flink的时间概念，时间属性时间选为ingestion time，并设置了窗口大小和数据传输速率。

函数调用

where（）:给两条数据流指定各自的keySelector，获取key的类型
equal（）判断key是否相同
window（）:制作一个ID标识符，配置窗口中的
- 输入流DataStream、keySelector、key type等元数据
- 窗口组件window assigner、Trigger、EVictor
image.png
apply（）：配置join操作方法
最后通过execute（）执行inner join操作