简介
Flink是一种流式计算框架,是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。
flink可以以多种方式(独立集群、运行在yarn、运行在K8S、、、、、)运行,这里主要实践flink on yarn。
软件版本选择
1、Apache Flink 1.10.0 (https://www.apache.org/dyn/closer.lua/flink/flink-1.10.0/flink-1.10.0-bin-scala_2.11.tgz)
2、Hadoop 2.10.0 https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.10.0/hadoop-2.10.0.tar.gz
Flink on yarn两种运行模式
(1)Start a long-running Flink cluster on YARN
(2)Run a Flink job on YARN
借助一张网上的示意图说明:
image.png
操作步骤:
1、安装hadoop集群(Hadoop 2.10.0),启动hdfs及yarn相关服务(需要提前修改相关服务的xml文件及环境变量文件)
image.pngimage.png
image.png
2、Start a long-running Flink cluster on YARN
运行./bin/yarn-session.sh -jm 1024m -tm 4096m
image.png
Yarn上可以看到启动了一个appliaction,处于Running。其名字为Flink session cluster
image.png
点击ApplicationMaster进入Flink页面
image.png
提交job至flink,可以看到运行结果
image.png
Flink页面也可以看到
image.png
image.png
image.png
3、Run a Flink job on YARN
运行 ./bin/flink run -m yarn-cluster -p 4 -yjm 1024m -ytm 4096m ./examples/batch/WordCount.jar
image.png
Yarn页面启动的application名字为Flink per-job cluster
image.png
参考文档:
1、https://ci.apache.org/projects/flink/flink-docs-release-1.10/ops/deployment/yarn_setup.html
2、https://ci.apache.org/projects/flink/flink-docs-release-1.10/ops/deployment/hadoop.html
网友评论