Flink Window API

作者: 架构师老狼 | 来源:发表于2021-06-30 11:46 被阅读0次

    窗口(window)就是将无限流切割为有限流的一种方式,它会将流数据分发到有限大小的桶(bucket)中进行分析

    window类型

    1. 时间窗口(Time Window)
    • 滚动时间窗口
    • 滑动时间窗口
    • 会话窗口

    2.计数窗口(Count Window)

    • 滚动计数窗口
    • 滑动计数窗口
    滚动窗口(Tumbling Windows)
    • 将数据依据固定的窗口长度对数据进行切分
    • 时间对齐,窗口长度固定,没有重叠
    滚动窗口
    滑动窗口(Sliding Windows)
    • 滑动窗口是固定窗口的更广义的一种形式,滑动窗口由固定的窗口长度和滑动间隔组成
    • 窗口长度固定,可以有重叠


      滑动窗口
    会话窗口(Session Windows)
    • 由一系列事件组合一个指定时间长度的 timeout 间隙组成,也就是一段时间没有接收到新数据就会生成新的窗口
    • 特点:时间无对齐
    会话窗口

    API

    • 窗口分配器 —— window() 方法
    • 我们可以用 .window() 来定义一个窗口,然后基于这个 window 去做一些聚合或者其它处理操作。注意 window () 方法必须在 keyBy 之后才能用
    • Flink 提供了更加简单的 .timeWindow 和 .countWindow方法,用于定义时间窗口和计数窗口。
    window api
    创建窗口
    • 滚动时间窗口(tumbling time window)
    滚动时间窗口
    • 滑动时间窗口(sliding time window)
    滑动时间窗口
    • 会话窗口(session window)
    会话窗口
    • 滚动计数窗口(tumbling count window)
    滚动计数窗口
    • 滑动计数窗口(sliding count window)


      滑动计数窗口
    窗口函数(window function)
    • 增量聚合函数(incremental aggregation functions)每条数据到来就进行计算,保持一个简单的状态ReduceFunction, AggregateFunction
    • 全窗口函数(full window functions)先把窗口所有数据收集起来,等到计算的时候会遍历所有数据ProcessWindowFunction,WindowFunction
    • trigger()触发器。定义 window 什么时候关闭,触发计算并输出结果
    • .evictor()移除器
    • 定义移除某些数据的逻辑。.allowedLateness() 允许处理迟到的数据
    • .sideOutputLateData()将迟到的数据放入侧输出流
    • .getSideOutput()获取侧输出流

    相关文章

      网友评论

        本文标题:Flink Window API

        本文链接:https://www.haomeiwen.com/subject/srqrultx.html