美文网首页大数据,机器学习,人工智能大数据
流式计算框架Apache-Flink简介及环境搭建

流式计算框架Apache-Flink简介及环境搭建

作者: wood1573 | 来源:发表于2019-06-11 21:02 被阅读19次

相关软件

       作者使用的操作系统是 Windows,读者也可以用 Mac,操作使用不会有明显差异,如果有差别会额外注明。本教程使用的软件主要是intellij idea用于代码编辑,使用的flink版本为flink-1.8.0,使用的JDK版本为1.8.0_151。另外版本控制软件 (version control software) 例如 Git 是软件开发中必不可少的工具,本教程作为入门教程暂时不介绍,有兴趣的读者可以自学。

课程介绍

本系列课程主要分为四块,分别为1)课程介绍&环境搭建2)主流应用接口3)Flink与Kafka的结合4)实战应用:实时ETL数据处理 课程本身具有一定的连续性:从是什么,到怎么做;从了解理论到联系实战;从知道到做到,层层递进。

本节内容

What:Apache Flink概念-有状态流式处理引擎

何谓有状态流式处理

传统批次处理方法

特点:持续收取数据、以时间作为划分数个批次档案的依据、周期性执行批次运算

黄箭头中间的状态为批处理作业之间的中间态

我们会思考下面几个问题:

1、假设计算每小时出现特定事件转换的次数(如:每小时A->B的次数)

2、如果事件转换跨越了所定义的时间划分该如何处理?

(将中介运算结果(intermediate result)带入下一个批次运算)

3、如果接受到的事件顺序颠倒如何处理?

理想方法



长时间串行计算处理,处理不断输入的记录

但是这样做很慢,怎么加快这一过程呢?分散流式处理应运而生

分散流式处理

分散实现并行,加快处理速度

再对输入变量加入状态值,处理时对输入状态进行判断,就是有状态分散流式处理了

有状态分散式流式处理

Apache Flink:原理/架构

概述

Flink的整个组件类似于Spark,它的核心是一个分布式的流式处理框架,在核心之上,有两套API,一套应用于批处理—DataSet API,一套应用于流式处理—DataStream API。

从图中可以看出,在两套API下又有更为高级的库,而它的整个处理部署方式可以支持本地、集群、云端

基础架构

Flink的整个架构和Spark很相似,有三个主要部分。 

一个是提交任务的客户端—Flink Program;还有作业的管理器—JobManager,主要负责任务的调度和状态的检测,以及在整个集群出现故障时进行初步管理;最后是任务管理器—TaskManager,实现业务逻辑的执行,负责把接受到的任务运行之后,将相应的结果输出到外部或进行外部交互。在整个过程中,JobManager是不负责任务执行的。

编程模型

下面我们来看一下Flink的具体编程模型结构。

第一条语句是建立整个Flink运行时的环境,类似于Spark里建立一个上下文。它的主要业务逻辑是由指定数据源、指定变换逻辑、指定输出三部分决定的。

指定数据源的过程就是nv.addSource,这是指定我们的数据到底从哪里来,在这个设计中,它是从kafka里把数据读出来。在这个事例里面,数据流的变换比较简单,只是把每一行数据做一个解析,解析完后获得另一个数据流,就构成了 DataStreamevents这个数据流。

在这个数据流上面,我们做了一个分组:keyBy(“id”)、timeWindow(Time.seconds(10))、apply(new MyWindowAggregationFunction())。我们把整个数据处理完之后,得到一个统计数据流,指定输出。

这大致就是整个数据流的业务逻辑,箭头下方是数据流图。

“map”就是做一些映射,比如我们把两个字符串合并成一个字符串,把一个字符串拆成两个或者三个字符串。

“flatMap”类似于把一个记录拆分成两条、三条、甚至是四条记录。

“Filter”就类似于过滤。

“keyBy”就等效于SQL里的group by。

“reduce”就类似于MapReduce里的reduce。

“join”操作就有点类似于我们数据库里面的join。

“aggregate”是一个聚合操作,如计数、求和、求平均等。

“connect”实现把两个流连成一个流。

“project”操作就类似于SQL里面的snacks。

“repartition”是一个重新分区操作。

执行机制

知道Flink的编程模型之后,那么Flink是怎样去运行这些业务逻辑的呢?下面是它的执行机制。

上图是表现业务逻辑的业务执行图,Flink的执行方式类似于管道,它借鉴了数据库的一些执行原理,实现了自己独特的执行方式。

状态与容错

Flink的容错机制很特别

是吧,很特别吧

Flink在处理数据流时,它的整个数据流里面的数据分为两种,一种是本身业务发给的数据,还有一种是Flink自己插到数据流里面的数据。插入的记录我们叫它barrier,就是栅栏,我们可以把它看成一个表示进度的标记,标记整个数据处理的状态,它从源头发出。从图中我们可以看到,不管是什么流,它都会产生一个checkpoint barrier。 

当operator收到栅栏之后,它会把栅栏的状态存储,然后把特定记录发出去,到达第二个operator里面,它又把它的状态放到Master里,它就是这样一步一步去完成的。在这个过程中,如果有一步出现故障,Flink会重复前面的步骤,重新去运行,所以不会出现数据的丢失和错误。

Why:为什么我们要用Flink

保证带状态计算下的精确一次语义,对于某些特定的计算而言非常有必要。

一般在流式处理框架中,数据的处理一般有两种方式,一种是按照处理时间来处理数据,另一种就是按照事件时间来处理数据,“事件时间语义支持”方式更为复杂。

Flink的API非常高级,在处理流式数据的逻辑业务中,效率更高。

如何在Windows下搭建Flink开发环境

Java 的安装和配置

在各个操作系统上安装和配置 Java 的教程有很多,这里有三个要点需要注意:

● Flink 编译和运行要求 Java 版本至少是 Java 8,且最好选用 Java 8u51 及以上版本

● 如果要能够编译 Flink 代码,需要安装 JDK

● 安装好 Java 后,还需要配置 JAVA_HOME 和 PATH

这三个要点在 mac 系统、Linux 系统及 Windows 系统上都是适用的。

Windows上安装 JKD8 方法如下:

在下面这个下载链接中下载并安装Windows对应的安装包https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

安装完成后查看 java8 的安装目录

配环境变量

检查 java 版本:java -version

Maven 的安装和配置

编译 Flink 要求必须使用 Maven 3,推荐使用 Maven 3.2.5。Maven 3.3.x 能够编译成功,但是在

shade 一些 dependencies 的过程中有些问题,故不推荐使用。

到官网下一下zip包

http://maven.apache.org/download.cgi 

解压之后,记录下路径,在系统环境变量中添加 M2_HOME 和 MAVEN_HOME,最后在PATH中添加。

验证是否安装成功,在cmd输入命令mvn -version验证。 这样显示就代表成功了。

Git 的安装和配置

Git 的安装可以参考这篇文章:https://git-scm.com/book/en/v1/Getting-Started-Installing-Git

当我们完成上述安装配置后,我们就可以从 github 上下载 Flink 代码了。github 上 flink 的代码仓

库是 https://github.com/apache/flink

下载完了之后,我们可以把服务启起来玩一下

进入你下载的Flink代码目录,进入bin目录,双击执行start-cluster.bat文件

然后就可以看到有个java控制台启动了

进入http://localhost:8081/#/overview

我们就可以看到Flink的监控页面,下面是一些监控信息。

执行一个程序试试吧

进入flink源码的bin目录,执行:flink run D:\Flink_linked\flink-1.8.0\examples\b

atch\WordCount.jar

指标还挺多

今天就到这里了。大家可以自己试试看执行执行demo什么的。也可以写一点程序自己执行一下。

相关文章

网友评论

    本文标题:流式计算框架Apache-Flink简介及环境搭建

    本文链接:https://www.haomeiwen.com/subject/mhpktctx.html