美文网首页
Flink on yarn实践

Flink on yarn实践

作者: sjyu_eadd | 来源:发表于2020-04-02 15:16 被阅读0次
image.png

简介

Flink是一种流式计算框架,是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。

flink可以以多种方式(独立集群、运行在yarn、运行在K8S、、、、、)运行,这里主要实践flink on yarn。

软件版本选择

1、Apache Flink 1.10.0 (https://www.apache.org/dyn/closer.lua/flink/flink-1.10.0/flink-1.10.0-bin-scala_2.11.tgz

2、Hadoop 2.10.0 https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.10.0/hadoop-2.10.0.tar.gz

Flink on yarn两种运行模式

(1)Start a long-running Flink cluster on YARN
(2)Run a Flink job on YARN
借助一张网上的示意图说明:


image.png

操作步骤:

1、安装hadoop集群(Hadoop 2.10.0),启动hdfs及yarn相关服务(需要提前修改相关服务的xml文件及环境变量文件)

image.png
image.png
image.png

2、Start a long-running Flink cluster on YARN

运行./bin/yarn-session.sh -jm 1024m -tm 4096m


image.png

Yarn上可以看到启动了一个appliaction,处于Running。其名字为Flink session cluster


image.png

点击ApplicationMaster进入Flink页面


image.png

提交job至flink,可以看到运行结果


image.png

Flink页面也可以看到


image.png
image.png
image.png

3、Run a Flink job on YARN

运行 ./bin/flink run -m yarn-cluster -p 4 -yjm 1024m -ytm 4096m ./examples/batch/WordCount.jar


image.png

Yarn页面启动的application名字为Flink per-job cluster


image.png

参考文档:

1、https://ci.apache.org/projects/flink/flink-docs-release-1.10/ops/deployment/yarn_setup.html

2、https://ci.apache.org/projects/flink/flink-docs-release-1.10/ops/deployment/hadoop.html

相关文章

网友评论

      本文标题:Flink on yarn实践

      本文链接:https://www.haomeiwen.com/subject/gquxphtx.html