环境准备
- git
- maven
- jdk 8u51及以上
- flink1.9源码
git clone https://github.com/apache/flink.git
编译
Flink针对不同Hadoop版本编译方法不一样,请根据自己的情况自行选择
已预编译好的Hadoop版本
Hadoop 2.4.1、2.6.5、 2.7.5、 2.8.3四个版本Flink已经提供了预编译好的版本,可自行下载使用,如果自己想编译这四个版本,则参考如下命令操作:
# cd 到 flink主目录
git checkout release-1.9.3
mvn clean install -DskipTests -Dmaven.javadoc.skip=true -Dhadoop.version=2.7.6 -Pfast -Pinclude-hadoop
对于其他Hadoop2.x版本
对于其他Hadoop2.x版本,包括Hadoop 2.4.1, 2.6.5, 2.7.5, 2.8.3的CDH、HDP等版本,由于flink依赖flink-shaded,而各大maven仓库并没有编译对应的版本,所以事先先编译安装flink-shaded,再编译flink。
- 编译flink-shaded
git clone https://github.com/apache/flink-shaded.git
cd flink-shaded
git checkout release-7.0
mvn clean install -DskipTests -Dhadoop.version=2.9.2
mvn处理完成之后,对应的flink-shaded就安装在本地的maven仓库。
- 编译Flink
cd flink
git checkout release-1.9.3
mvn clean install -DskipTests -Dmaven.javadoc.skip=true -Dhadoop.version=2.9.2 -
Pfast -Pinclude-hadoop
编译完之后在flink/flink-dist/target/flink-1.9.3-bin
留意点
- 使用Scala哪个版本开发Flink应用,就基于Scala哪个版本来编译Flink(2.11/2.12),如果你只想使用Flink的JavaAPI,则不用选择scala版本(-Dscala-2.11或者-Dscala-2.12来指定Scala版本)。
- 编译针对HDP、CDH、MapR的Hadoop版本可使用-Pvendor-repos
- -Pinclude-hadoop会自动把flink-shaded-hadoop包打包到lib目录下
Flink自编译的必要性
例如CDH6.2为例,它的Hadoop版本是3.x.x,是不是非要专门进行编译才能使用呢?答案是否定的。
- 如果使用的Hadoop是Hadoop2.4.1,2.6.5,2.7.5,2.8.3 => 直接使用预编译的Hadoop版本即可
- 如果使用的Hadoop是2.x,但不是2.4.1,2.6.5,2.7.5,2.8.3 => 直接使用预编译的Hadoop版本即可,也可以自己编译
- 如果使用的是Hadoop3.x,但不会在Flink编程中使用Hadoop3特有的API => 直接使用预编译的Hadoop版本即可
- 如果使用的是Hadoop3.x,且需要使用Hadoop3特有的API => 需要自己编译
如果自己编译应该编译哪个版本呢?以下是blink开发人员给出的答案:
- blink内部版本使用hadoop3.0版本的client,从而能使用到一些yarn3.x才有功能(比如GPU调度)。
- 如果使用hadoop3.0特有的api后,会导致flink在低版本的hadoop集群中不能正常运行。
- 目前大部分yarn用户还是以hadoop2.6为主,所以目前blink开源版对于hadoop的依赖是2.6及以上版本的。
- 如果flink用户不需要hadoop3.0特有的api的话,编译flink时用hadoop2.6版本即可。
- 我们已经测试过基于hadoop2.6.5的flink能够正常运行在hadoop3.x的集群中。
网友评论