流式计算框架Apache-Flink简介及环境搭建

作者: wood1573 | 来源:发表于2019-06-11 21:02 被阅读19次

流式计算框架Apache-Flink简介及环境搭建
Storm核心组件、编程模型
Storm核心组件、编程模型
Storm核心组件、编程模型
Storm核心组件、编程模型
如何生成 Flink 作业的交互式火焰图？
java-spring-1
Spring第一天
服务监控（技术框架Flume、Kafka、Storm、Hadoo
Flink on yarn实践

课程介绍

本系列课程主要分为四块，分别为1）课程介绍&环境搭建2）主流应用接口3）Flink与Kafka的结合4）实战应用：实时ETL数据处理课程本身具有一定的连续性：从是什么，到怎么做；从了解理论到联系实战；从知道到做到，层层递进。

本节内容

What:Apache Flink概念-有状态流式处理引擎

何谓有状态流式处理

传统批次处理方法

特点：持续收取数据、以时间作为划分数个批次档案的依据、周期性执行批次运算

黄箭头中间的状态为批处理作业之间的中间态

我们会思考下面几个问题：

1、假设计算每小时出现特定事件转换的次数(如：每小时A->B的次数)

2、如果事件转换跨越了所定义的时间划分该如何处理？

（将中介运算结果(intermediate result)带入下一个批次运算）

3、如果接受到的事件顺序颠倒如何处理？

理想方法

长时间串行计算处理，处理不断输入的记录

但是这样做很慢，怎么加快这一过程呢？分散流式处理应运而生

分散流式处理

分散实现并行，加快处理速度

再对输入变量加入状态值，处理时对输入状态进行判断，就是有状态分散流式处理了

有状态分散式流式处理

Apache Flink：原理/架构

概述

Flink的整个组件类似于Spark,它的核心是一个分布式的流式处理框架，在核心之上，有两套API，一套应用于批处理—DataSet API，一套应用于流式处理—DataStream API。

从图中可以看出，在两套API下又有更为高级的库，而它的整个处理部署方式可以支持本地、集群、云端

基础架构

Flink的整个架构和Spark很相似，有三个主要部分。

一个是提交任务的客户端—Flink Program；还有作业的管理器—JobManager，主要负责任务的调度和状态的检测，以及在整个集群出现故障时进行初步管理；最后是任务管理器—TaskManager，实现业务逻辑的执行，负责把接受到的任务运行之后，将相应的结果输出到外部或进行外部交互。在整个过程中，JobManager是不负责任务执行的。

编程模型

下面我们来看一下Flink的具体编程模型结构。

第一条语句是建立整个Flink运行时的环境，类似于Spark里建立一个上下文。它的主要业务逻辑是由指定数据源、指定变换逻辑、指定输出三部分决定的。

指定数据源的过程就是nv.addSource，这是指定我们的数据到底从哪里来，在这个设计中，它是从kafka里把数据读出来。在这个事例里面，数据流的变换比较简单，只是把每一行数据做一个解析，解析完后获得另一个数据流，就构成了 DataStreamevents这个数据流。

在这个数据流上面，我们做了一个分组：keyBy(“id”)、timeWindow(Time.seconds(10))、apply(new MyWindowAggregationFunction())。我们把整个数据处理完之后，得到一个统计数据流，指定输出。

这大致就是整个数据流的业务逻辑，箭头下方是数据流图。

“map”就是做一些映射，比如我们把两个字符串合并成一个字符串，把一个字符串拆成两个或者三个字符串。

“flatMap”类似于把一个记录拆分成两条、三条、甚至是四条记录。

“Filter”就类似于过滤。

“keyBy”就等效于SQL里的group by。

“reduce”就类似于MapReduce里的reduce。

“join”操作就有点类似于我们数据库里面的join。

“aggregate”是一个聚合操作，如计数、求和、求平均等。

“connect”实现把两个流连成一个流。

“project”操作就类似于SQL里面的snacks。

“repartition”是一个重新分区操作。

执行机制

知道Flink的编程模型之后，那么Flink是怎样去运行这些业务逻辑的呢？下面是它的执行机制。

上图是表现业务逻辑的业务执行图，Flink的执行方式类似于管道，它借鉴了数据库的一些执行原理，实现了自己独特的执行方式。

状态与容错

Flink的容错机制很特别

是吧，很特别吧

Flink在处理数据流时，它的整个数据流里面的数据分为两种，一种是本身业务发给的数据，还有一种是Flink自己插到数据流里面的数据。插入的记录我们叫它barrier，就是栅栏，我们可以把它看成一个表示进度的标记，标记整个数据处理的状态，它从源头发出。从图中我们可以看到，不管是什么流，它都会产生一个checkpoint barrier。

当operator收到栅栏之后，它会把栅栏的状态存储，然后把特定记录发出去，到达第二个operator里面，它又把它的状态放到Master里，它就是这样一步一步去完成的。在这个过程中，如果有一步出现故障，Flink会重复前面的步骤，重新去运行，所以不会出现数据的丢失和错误。

Why:为什么我们要用Flink

保证带状态计算下的精确一次语义，对于某些特定的计算而言非常有必要。

一般在流式处理框架中，数据的处理一般有两种方式，一种是按照处理时间来处理数据，另一种就是按照事件时间来处理数据，“事件时间语义支持”方式更为复杂。

Flink的API非常高级，在处理流式数据的逻辑业务中，效率更高。

如何在Windows下搭建Flink开发环境

Java 的安装和配置

在各个操作系统上安装和配置 Java 的教程有很多，这里有三个要点需要注意：

● Flink 编译和运行要求 Java 版本至少是 Java 8，且最好选用 Java 8u51 及以上版本

● 如果要能够编译 Flink 代码，需要安装 JDK

● 安装好 Java 后，还需要配置 JAVA_HOME 和 PATH

这三个要点在 mac 系统、Linux 系统及 Windows 系统上都是适用的。

Windows上安装 JKD8 方法如下：

在下面这个下载链接中下载并安装Windows对应的安装包https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

安装完成后查看 java8 的安装目录

配环境变量

检查 java 版本：java -version

Maven 的安装和配置

编译 Flink 要求必须使用 Maven 3，推荐使用 Maven 3.2.5。Maven 3.3.x 能够编译成功，但是在

shade 一些 dependencies 的过程中有些问题，故不推荐使用。

到官网下一下zip包

http://maven.apache.org/download.cgi

解压之后，记录下路径，在系统环境变量中添加 M2_HOME 和 MAVEN_HOME，最后在PATH中添加。

验证是否安装成功，在cmd输入命令mvn -version验证。这样显示就代表成功了。

Git 的安装和配置

Git 的安装可以参考这篇文章：https://git-scm.com/book/en/v1/Getting-Started-Installing-Git

当我们完成上述安装配置后，我们就可以从 github 上下载 Flink 代码了。github 上 flink 的代码仓

库是 https://github.com/apache/flink

下载完了之后，我们可以把服务启起来玩一下

进入你下载的Flink代码目录，进入bin目录，双击执行start-cluster.bat文件

然后就可以看到有个java控制台启动了

进入http://localhost:8081/#/overview

我们就可以看到Flink的监控页面，下面是一些监控信息。

执行一个程序试试吧

进入flink源码的bin目录，执行：flink run D:\Flink_linked\flink-1.8.0\examples\b

atch\WordCount.jar

指标还挺多

今天就到这里了。大家可以自己试试看执行执行demo什么的。也可以写一点程序自己执行一下。

网友评论

本文标题：流式计算框架Apache-Flink简介及环境搭建

本文链接：https://www.haomeiwen.com/subject/mhpktctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

流式计算框架Apache-Flink简介及环境搭建

相关软件

课程介绍

本节内容

What:Apache Flink概念-有状态流式处理引擎

传统批次处理方法

理想方法

分散流式处理

有状态分散式流式处理

Apache Flink：原理/架构

概述

基础架构

编程模型

执行机制

状态与容错

Why:为什么我们要用Flink

如何在Windows下搭建Flink开发环境

Java 的安装和配置

Maven 的安装和配置

Git 的安装和配置

相关文章

流式计算框架Apache-Flink简介及环境搭建

Storm核心组件、编程模型

Storm核心组件、编程模型

Storm核心组件、编程模型

Storm核心组件、编程模型

如何生成 Flink 作业的交互式火焰图？

java-spring-1

Spring第一天

服务监控（技术框架Flume、Kafka、Storm、Hadoo

Flink on yarn实践

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据，机器学习，人工智能

大数据