美文网首页
flink学习笔记:Flink核心概念与编程模型

flink学习笔记:Flink核心概念与编程模型

作者: 大数据研习社 | 来源:发表于2019-04-16 18:04 被阅读0次

    本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程:  

     Flink大数据项目实战:http://t.cn/EJtKhaz

    1. Flink分层架构

    1.1 Flink生态之核心组件栈

    大家回顾一下Flink生态圈中的核心组件栈即可,前面已经详细讲过,这里就不再赘叙。

    1.2 Flink分层架构

    Flink一共分为四个层级,具体如下图所示:

    Flink 最下面的一层API为Stateful

    Stream Processing,它是Flink最底层的API,控制更灵活但一般很少使用。然后上面一层就是Flink Core(核心)API,它包含DataStream和DataSet API,应用层的用户经常使用 Core API。然后再上面一层就是 Table API,它相当于在Core API中可以定义数据的Table结构,可以做table操作。最上面一层就是SQL 操作,用户可以直接使用SQL语句对数据处理,更简单更方便。

    注意:越底层的API越灵活,但越复杂。越上层的API越轻便,但灵活性差。

    [if !supportLists]1.      [endif]Stateful Stream Processing

    a)它位于最底层,是Core API 的底层实现。

    b)它是嵌入到Stream流里面的处理函数(processFunction)。

    c)当Core API满足不了用户需求,可以利用低阶API构建一些新的组件或者算子。

    d)它虽然灵活性高,但开发比较复杂,需要具备一定的编码能力。

    [if !supportLists]2.      [endif]Core API

    [if !supportLists]a)  [endif]DataSet API 是批处理API,处理有限的数据集。

    [if !supportLists]b)  [endif]DataStream API是流处理API,处理无限的数据集。

    [if !supportLists]3.      [endif]Table API & SQL

    a)SQL 构建在Table 之上,都需要构建Table环境。

    b)不同的类型的Table 构建不同的Table 环境中。

    c)Table 可以与DataStream或者DataSet进行相互转换。

    d)Streaming SQL不同于存储的SQL,最终会转化为流式执行计划。

    1.3Flink DataFlow

    Flink DataFlow基本套路:先创建Data

    Source读取数据,然后对数据进行转化操作,然后创建DataSink对数据输出。

    结合代码和示意图理解DataFlow

    Flink DataFlow 基本套路如下所示:

    步骤1:构建计算环境(决定采用哪种计算执行方式)

    步骤2:创建Source(可以多个数据源)

    步骤3:对数据进行不同方式的转换(提供了丰富的算子)

    步骤4:对结果的数据进行Sink(可以输出到多个地方)

    并行化DataFlow

    从上图可以看出Source的并行度为2,它们可以并行运行在不同的节点上。Map的并行度也为2,source读取数据后做Stream Partition操作,source1将数据交给map1,source2将数据交给map2。keyBy(或者window等)的并行度为2,map处理后的数据需要经过shuffle操作,然后交给keyBy进行分组统计。Sink的并行度为1,keyBy最后分组统计后的数据交给sink,将数据进行输出操作。

    算子间数据传递模式

    从上图可以看出,Flink算子间的数据传递模式大概分为两种:

    1.One-to-one streams:保持元素的分区和顺序,比如数据做map操作。

    2.Redistributing streams:它会改变流的分区,重新分区策略取决于使用的算子

    keyBy() (re-partitions by hashing the

    key) :根据hash key对数据重新分区。

    broadcast():即为广播操作,比如map1有100条数据,发送给keyBy1是100条数据,发给keyBy2也是100条数据。

    rebalance() (which re-partitions

    randomly):即随机打散,数据随机分区发送给下游操作。

    2. Windows

    前面我们已经了解了Flink的Stream流处理和Batch批处理,那么我们这里讲的Windows操作是对一段数据进行操作,它可以按照固定数据量进行Windows操作,也可以按照固定时间进行windows操作,它是Stream 流处理所特有的窗口操作。

    Flink Windows操作的类型大概分为以下几类:

    [if !supportLists]1.      [endif]Count Windows

    顾名思义,是按照Events的数量进行操作,比如每3个Event做一次windows操作。

    [if !supportLists]2.      [endif]Time Windows

    基于时间长度进行Windows操作

    [if !supportLists]a)  [endif]Tumbling Windows:即翻滚窗口,不会重叠,比如每隔3s操作一次。

    [if !supportLists]b)  [endif]Sliding Windows:即滑动窗口,有重叠,比如窗口大小为3s,每次向前滑动1s。

    [if !supportLists]c)  [endif]Session Windows:类似于Web编程里的Session,以不活动间隙作为窗口进行操作,比如每10s内没有活动,就会做一次Windows操作。

    [if !supportLists]

    3.      [endif]自定义Windows

    当Flink内置的windows不能满足用户的需求,我们可以自定义Windows操作。

    3.各种Time

    从上图可以看出Flink 中的Time大致分为以下三类:

    1.Event Time:Event 真正产生的时间,我们称之为Event

    Time。

    2.Ingestion Time:Event 事件被Source拿到,进入Flink处理引擎的时间,我们称之为Ingestion

    Time。

    3.Window Processing Time:Event事件被Flink 处理(比如做windows操作)时的时间,我们称之为Window

    Processing Time。

    [if !supportLists]

    4.   [endif]Stateful Operations

    什么是状态?

    state一般指一个具体的task/operator的状态,比如当前处理那些数据,数据处理的进度等等。

    Flink state操作状态分为两类:

    1.Operator State

    Operator State跟一个特定operator的一个并发实例绑定,整个operator只对应一个state。

    2.Keyed State

    基于KeyedStream上的状态。这个状态是跟特定的key绑定的,对KeyedStream流上的每一个key,可能都对应一个state。

    Flink 每个操作状态又分为两类:

    Keyed State和Operator State可以以两种形式存在:原始状态和托管状态( Flink框架管理的状态)。

    1.原始状态:比如一个字符串或者数组,它需要序列化,保存到内存或磁盘,或者外部存储中,这就是它的原始状态。

    2.托管状态:比如数据放在Hash表中,或者放在HDFS中,或者放在rocksdb中,这种就是托管状态。当需要处理数据的时候,从托管状态中读取出来,还原成原始状态,甚至变量和集合,然后再进行处理。

    5.Checkpoints(备份)

    什么是checkpoint?

    所谓checkpoint,就是在某一时刻,将所有task的状态做一个快照(snapshot),然后存储到State Backend(比如hdfs)。checkpoint拥有轻量级容错机制,可以保证exactly-once 语义,用于内部失败的恢复(比如当应用挂了,它可以自动恢复从上次的进度接着执行)。

    checkpoint基本原理:通过往source 注入barrier(可以理解为特殊的Event),barrier作为checkpoint的标志,它会自动做checkpoint无需人工干预。

    6.Savepoint

    savepoint是流处理过程中的状态历史版本,它具有可以replay的功能。用于外部恢复,当Flink应用重启和升级,它会做一个先做一个savepoint,下次应用启动可以接着上次进度执行。

    savepoint两种触发方式:

    1.Cancel with savepoint

    2.手动主动触发

    savepoint可以理解为是一种特殊的checkpoint,savepoint就是指向checkpoint的一个指针,需要手动触发,而且不会过期,不会被覆盖,除非手动删除。正常情况下的线上环境是不需要设置savepoint的。除非对job或集群做出重大改动的时候,需要进行测试运行。

    相关文章

      网友评论

          本文标题:flink学习笔记:Flink核心概念与编程模型

          本文链接:https://www.haomeiwen.com/subject/pttpwqtx.html