Spark2.4.0 源码编译

作者: 井地儿 | 来源:发表于2019-03-17 14:19 被阅读0次

Spark2.4.0 源码编译
Spark2.4.2源码编译
编译移植Android ARM源码
lua 源码编译
WebRTC研究（一）编译源码
python深入系列（一）：python源码运行流程
JVM内存模型与数据结构
WebRTC for Android-源码编译篇
ijkplayer(一) 编译
002-【Spring】源码编译

Spark源码编译

源码下载

从github上下载最新版本spark源码
https://github.com/apache/spark

Apache Maven（Maven编译）

基于maven的编译的版本要求如下：
Maven版本：3.5.4+
Java版本：java8+

设置maven使用内存

export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m"

如果没有设置上述参数，可能会报错：

[INFO] Compiling 203 Scala sources and 9 Java sources to /Users/me/Development/spark/core/target/scala-2.11/classes...
[ERROR] Java heap space -> [Help 1]

build/mvn

Spark提供了自动化maven编译脚本，会自动下载安装编译所需要的Maven，Scala，Zinc。
编译命令

./build/mvn -DskipTests clean package

mac环境下，如果你曾从bash风格切换到zsh风格之后，没有在.zshrc中配置JAVA_HOME环境变量，可能会报错：

Cannot run program "/Library/Java/JavaVirtualMachines/jdk1.8.0_181.jdk/Contents/Home/jre/bin/javac": error=2, No such file or directory

在～/.zshrc 配置文件中配置JAVA_HOME即可。

building...

stefan@localhost  ~/Documents/workspace/code/spark   master  ./build/mvn -DskipTests clean package
Using `mvn` from path: /Users/stefan/Documents/workspace/code/spark/build/apache-maven-3.6.0/bin/mvn
[INFO] Scanning for projects...
...
[INFO] ------------------------------------------------------------------------
[INFO] Reactor Summary for Spark Project Parent POM 3.0.0-SNAPSHOT:
[INFO]
[INFO] Spark Project Parent POM ........................... SUCCESS [  4.010 s]
[INFO] Spark Project Tags ................................. SUCCESS [  7.204 s]
[INFO] Spark Project Sketch ............................... SUCCESS [  6.099 s]
[INFO] Spark Project Local DB ............................. SUCCESS [  3.870 s]
[INFO] Spark Project Networking ........................... SUCCESS [  8.308 s]
[INFO] Spark Project Shuffle Streaming Service ............ SUCCESS [  3.860 s]
[INFO] Spark Project Unsafe ............................... SUCCESS [  6.418 s]
[INFO] Spark Project Launcher ............................. SUCCESS [  5.159 s]
[INFO] Spark Project Core ................................. SUCCESS [02:01 min]
[INFO] Spark Project ML Local Library ..................... SUCCESS [  5.823 s]
[INFO] Spark Project GraphX ............................... SUCCESS [  8.543 s]
[INFO] Spark Project Streaming ............................ SUCCESS [ 21.891 s]
[INFO] Spark Project Catalyst ............................. SUCCESS [01:15 min]
[INFO] Spark Project SQL .................................. SUCCESS [02:28 min]
[INFO] Spark Project ML Library ........................... SUCCESS [01:13 min]
[INFO] Spark Project Tools ................................ SUCCESS [  1.534 s]
[INFO] Spark Project Hive ................................. SUCCESS [ 56.505 s]
[INFO] Spark Project REPL ................................. SUCCESS [  5.497 s]
[INFO] Spark Project Assembly ............................. SUCCESS [  4.034 s]
[INFO] Spark Integration for Kafka 0.10 ................... SUCCESS [  6.713 s]
[INFO] Kafka 0.10+ Token Provider for Streaming ........... SUCCESS [  2.156 s]
[INFO] Kafka 0.10+ Source for Structured Streaming ........ SUCCESS [  9.314 s]
[INFO] Spark Project Examples ............................. SUCCESS [ 14.136 s]
[INFO] Spark Integration for Kafka 0.10 Assembly .......... SUCCESS [  3.357 s]
[INFO] Spark Avro ......................................... SUCCESS [  5.773 s]
[INFO] ------------------------------------------------------------------------
[INFO] BUILD SUCCESS
[INFO] ------------------------------------------------------------------------
[INFO] Total time:  10:09 min
[INFO] Finished at: 2019-03-17T11:11:29+08:00
[INFO] ------------------------------------------------------------------------

Building a Runnable Distribution（编译可运行的分布式版本）

Spark提供了自动化的分布式编译脚本：./dev/make-distribution.sh

脚本各参数含义可以通过命令

./dev/make-distribution.sh --help

查看。

✘ stefan@localhost  ~/Documents/workspace/code/spark   master  ./dev/make-distribution.sh --help
+++ dirname ./dev/make-distribution.sh
++ cd ./dev/..
++ pwd
+ SPARK_HOME=/Users/didi/Documents/workspace/code/spark
+ DISTDIR=/Users/didi/Documents/workspace/code/spark/dist
+ MAKE_TGZ=false
+ MAKE_PIP=false
+ MAKE_R=false
+ NAME=none
+ MVN=/Users/didi/Documents/workspace/code/spark/build/mvn
+ ((  1  ))
+ case $1 in
+ exit_with_usage
+ echo 'make-distribution.sh - tool for making binary distributions of Spark'
make-distribution.sh - tool for making binary distributions of Spark
+ echo ''

+ echo usage:
usage:
+ cl_options='[--name] [--tgz] [--pip] [--r] [--mvn <mvn-command>]'
+ echo 'make-distribution.sh [--name] [--tgz] [--pip] [--r] [--mvn <mvn-command>] <maven build options>'
make-distribution.sh [--name] [--tgz] [--pip] [--r] [--mvn <mvn-command>] <maven build options>
+ echo 'See Spark'\''s "Building Spark" doc for correct Maven options.'
See Spark's "Building Spark" doc for correct Maven options.
+ echo ''

+ exit 1

编译命令

./dev/make-distribution.sh --name custom-spark --pip --r --tgz -Psparkr -Phadoop-2.7 -Phive -Phive-thriftserver -Pmesos -Pyarn -Pkubernetes

上述命令会编译spark分发包，Python pip 和R包。执行前，请确认本地安装了R。

Specifying the Hadoop Version and Enabling YARN（指定Hadoop版本并启用YARN）

可以通过hadoop.version参数指定Hadoop编译版本，如果不指定，Spark将默认使用Hadoop2.6.X版本编译。
编译命令

# Apache Hadoop 2.6.X
./build/mvn -Pyarn -DskipTests clean package

# Apache Hadoop 2.7.X and later
./build/mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.7 -DskipTests clean package

building...

✘ stefan@localhost  ~/Documents/workspace/code/spark   master  ./build/mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.7 -DskipTests clean package
Using `mvn` from path: /Users/didi/Documents/workspace/code/spark/build/apache-maven-3.6.0/bin/mvn
[WARNING]
[WARNING] Some problems were encountered while building the effective toolchains
[WARNING] expected START_TAG or END_TAG not TEXT (position: TEXT seen ...</toolchain>\n   \n  -->z\n\n</... @103:3)  @ line 103, column 3
[WARNING]
[INFO] Scanning for projects...
...
[INFO] Reactor Summary for Spark Project Parent POM 3.0.0-SNAPSHOT:
[INFO]
[INFO] Spark Project Parent POM ........................... SUCCESS [  4.564 s]
[INFO] Spark Project Tags ................................. SUCCESS [  8.780 s]
[INFO] Spark Project Sketch ............................... SUCCESS [  6.256 s]
[INFO] Spark Project Local DB ............................. SUCCESS [  5.063 s]
[INFO] Spark Project Networking ........................... SUCCESS [  8.652 s]
[INFO] Spark Project Shuffle Streaming Service ............ SUCCESS [  4.215 s]
[INFO] Spark Project Unsafe ............................... SUCCESS [  7.210 s]
[INFO] Spark Project Launcher ............................. SUCCESS [01:07 min]
[INFO] Spark Project Core ................................. SUCCESS [02:13 min]
[INFO] Spark Project ML Local Library ..................... SUCCESS [  6.008 s]
[INFO] Spark Project GraphX ............................... SUCCESS [  8.864 s]
[INFO] Spark Project Streaming ............................ SUCCESS [ 22.931 s]
[INFO] Spark Project Catalyst ............................. SUCCESS [01:35 min]
[INFO] Spark Project SQL .................................. SUCCESS [02:23 min]
[INFO] Spark Project ML Library ........................... SUCCESS [01:17 min]
[INFO] Spark Project Tools ................................ SUCCESS [  0.616 s]
[INFO] Spark Project Hive ................................. SUCCESS [01:09 min]
[INFO] Spark Project REPL ................................. SUCCESS [  7.165 s]
[INFO] Spark Project YARN Shuffle Service ................. SUCCESS [  9.303 s]
[INFO] Spark Project YARN ................................. SUCCESS [ 24.783 s]
[INFO] Spark Project Assembly ............................. SUCCESS [  3.523 s]
[INFO] Spark Integration for Kafka 0.10 ................... SUCCESS [  7.028 s]
[INFO] Kafka 0.10+ Token Provider for Streaming ........... SUCCESS [  1.989 s]
[INFO] Kafka 0.10+ Source for Structured Streaming ........ SUCCESS [  9.736 s]
[INFO] Spark Project Examples ............................. SUCCESS [ 14.508 s]
[INFO] Spark Integration for Kafka 0.10 Assembly .......... SUCCESS [  3.328 s]
[INFO] Spark Avro ......................................... SUCCESS [  7.217 s]
[INFO] ------------------------------------------------------------------------
[INFO] BUILD SUCCESS
[INFO] ------------------------------------------------------------------------
[INFO] Total time:  12:39 min
[INFO] Finished at: 2019-03-17T13:17:52+08:00
[INFO] ------------------------------------------------------------------------

Building With Hive and JDBC Support（支持Hive和JDBC编译）

集成Spark SQL，Hive和JDBC，如果不指定，将默认绑定Hive 1.2.1编译。

编译命令

# With Hive 1.2.1 support
./build/mvn -Pyarn -Phive -Phive-thriftserver -DskipTests clean package

building...

 stefan@localhost  ~/Documents/workspace/code/spark   master  ./build/mvn -Pyarn -Phive -Phive-thriftserver -DskipTests clean package
Using `mvn` from path: /Users/didi/Documents/workspace/code/spark/build/apache-maven-3.6.0/bin/mvn
[WARNING]
[WARNING] Some problems were encountered while building the effective toolchains
[WARNING] expected START_TAG or END_TAG not TEXT (position: TEXT seen ...</toolchain>\n   \n  -->z\n\n</... @103:3)  @ line 103, column 3
[WARNING]
[INFO] Scanning for projects...
...
[INFO] Reactor Summary for Spark Project Parent POM 3.0.0-SNAPSHOT:
[INFO]
[INFO] Spark Project Parent POM ........................... SUCCESS [  4.719 s]
[INFO] Spark Project Tags ................................. SUCCESS [  8.717 s]
[INFO] Spark Project Sketch ............................... SUCCESS [  6.270 s]
[INFO] Spark Project Local DB ............................. SUCCESS [  3.983 s]
[INFO] Spark Project Networking ........................... SUCCESS [  7.893 s]
[INFO] Spark Project Shuffle Streaming Service ............ SUCCESS [  4.385 s]
[INFO] Spark Project Unsafe ............................... SUCCESS [  6.898 s]
[INFO] Spark Project Launcher ............................. SUCCESS [  5.493 s]
[INFO] Spark Project Core ................................. SUCCESS [02:13 min]
[INFO] Spark Project ML Local Library ..................... SUCCESS [ 10.281 s]
[INFO] Spark Project GraphX ............................... SUCCESS [ 10.138 s]
[INFO] Spark Project Streaming ............................ SUCCESS [ 26.678 s]
[INFO] Spark Project Catalyst ............................. SUCCESS [02:23 min]
[INFO] Spark Project SQL .................................. SUCCESS [04:46 min]
[INFO] Spark Project ML Library ........................... SUCCESS [01:21 min]
[INFO] Spark Project Tools ................................ SUCCESS [  1.319 s]
[INFO] Spark Project Hive ................................. SUCCESS [01:04 min]
[INFO] Spark Project REPL ................................. SUCCESS [  5.929 s]
[INFO] Spark Project YARN Shuffle Service ................. SUCCESS [  6.662 s]
[INFO] Spark Project YARN ................................. SUCCESS [ 21.103 s]
[INFO] Spark Project Hive Thrift Server ................... SUCCESS [ 21.623 s]
[INFO] Spark Project Assembly ............................. SUCCESS [  3.794 s]
[INFO] Spark Integration for Kafka 0.10 ................... SUCCESS [  6.660 s]
[INFO] Kafka 0.10+ Token Provider for Streaming ........... SUCCESS [  2.034 s]
[INFO] Kafka 0.10+ Source for Structured Streaming ........ SUCCESS [  8.895 s]
[INFO] Spark Project Examples ............................. SUCCESS [ 14.781 s]
[INFO] Spark Integration for Kafka 0.10 Assembly .......... SUCCESS [  3.565 s]
[INFO] Spark Avro ......................................... SUCCESS [  5.989 s]
[INFO] ------------------------------------------------------------------------
[INFO] BUILD SUCCESS
[INFO] ------------------------------------------------------------------------
[INFO] Total time:  15:08 min
[INFO] Finished at: 2019-03-17T13:46:54+08:00
[INFO] ------------------------------------------------------------------------

Packaging without Hadoop Dependencies for YARN（不包含hadoop依赖的yarn打包）

采用hadoop-provided profile编译时，会排除hadoop依赖进行编译打包。
编译命令

./build/mvn -Dhadoop-provided -DskipTests clean package

building

stefan@localhost  ~/Documents/workspace/code/spark   master  ./build/mvn -Dhadoop-provided -DskipTests clean package
Using `mvn` from path: /Users/didi/Documents/workspace/code/spark/build/apache-maven-3.6.0/bin/mvn
[WARNING]
[WARNING] Some problems were encountered while building the effective toolchains
[WARNING] expected START_TAG or END_TAG not TEXT (position: TEXT seen ...</toolchain>\n   \n  -->z\n\n</... @103:3)  @ line 103, column 3
[WARNING]
[INFO] Scanning for projects...
[INFO] ------------------------------------------------------------------------
...
[INFO] Reactor Summary for Spark Project Parent POM 3.0.0-SNAPSHOT:
[INFO]
[INFO] Spark Project Parent POM ........................... SUCCESS [  5.056 s]
[INFO] Spark Project Tags ................................. SUCCESS [  8.136 s]
[INFO] Spark Project Sketch ............................... SUCCESS [  5.885 s]
[INFO] Spark Project Local DB ............................. SUCCESS [  4.064 s]
[INFO] Spark Project Networking ........................... SUCCESS [ 13.564 s]
[INFO] Spark Project Shuffle Streaming Service ............ SUCCESS [  6.083 s]
[INFO] Spark Project Unsafe ............................... SUCCESS [ 16.586 s]
[INFO] Spark Project Launcher ............................. SUCCESS [  6.701 s]
[INFO] Spark Project Core ................................. SUCCESS [02:19 min]
[INFO] Spark Project ML Local Library ..................... SUCCESS [  7.171 s]
[INFO] Spark Project GraphX ............................... SUCCESS [  9.424 s]
[INFO] Spark Project Streaming ............................ SUCCESS [ 32.804 s]
[INFO] Spark Project Catalyst ............................. SUCCESS [01:31 min]
[INFO] Spark Project SQL .................................. SUCCESS [02:52 min]
[INFO] Spark Project ML Library ........................... SUCCESS [01:41 min]
[INFO] Spark Project Tools ................................ SUCCESS [  0.879 s]
[INFO] Spark Project Hive ................................. SUCCESS [01:14 min]
[INFO] Spark Project REPL ................................. SUCCESS [  4.553 s]
[INFO] Spark Project Assembly ............................. SUCCESS [  4.331 s]
[INFO] Spark Integration for Kafka 0.10 ................... SUCCESS [ 10.777 s]
[INFO] Kafka 0.10+ Token Provider for Streaming ........... SUCCESS [  2.870 s]
[INFO] Kafka 0.10+ Source for Structured Streaming ........ SUCCESS [ 26.260 s]
[INFO] Spark Project Examples ............................. SUCCESS [ 25.948 s]
[INFO] Spark Integration for Kafka 0.10 Assembly .......... SUCCESS [  4.794 s]
[INFO] Spark Avro ......................................... SUCCESS [  8.309 s]
[INFO] ------------------------------------------------------------------------
[INFO] BUILD SUCCESS
[INFO] ------------------------------------------------------------------------
[INFO] Total time:  13:03 min
[INFO] Finished at: 2019-03-17T14:13:57+08:00
[INFO] ------------------------------------------------------------------------

至此，我们演示了几种常用的编译方式。

测试成功

开启spark-shell

✘ didi@localhost  ~/Documents/workspace/code/spark   master  ./bin/spark-shell
19/03/17 13:58:02 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Spark context Web UI available at http://bogon:4040
Spark context available as 'sc' (master = local[*], app id = local-1552805589600).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.0.0-SNAPSHOT
      /_/

Using Scala version 2.12.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_181)
Type in expressions to have them evaluated.
Type :help for more information.

scala>

成功打开spark-shell交互界面，说明编译成功。
后面我们将介绍如何在本地进行Spark本地源码的开发测试。
参考：http://spark.apache.org/docs/latest/building-spark.html

Spark2.4.0 源码编译
Spark源码编译源码下载从github上下载最新版本spark源码https://github.com/ap...
Spark2.4.2源码编译
一、Spark2.4.0源码下载下载地址:https://archive.apache.org/dist/spar...
编译移植Android ARM源码
[TOC] 编译移植Android ARM源码 android源码编译的四个流程:1. 源码下载; 2. 构建编译...
lua 源码编译
lua 源码编译本文介绍了使用 Visual Studio 编译 lua 源码的方法。下载源码源码下载在这...
WebRTC研究（一）编译源码
@[TOC](WebRTC研究（一）编译源码) 1. WebRTC 源码编译 1.1 IOS平台编译 1.1....
python深入系列（一）：python源码运行流程
源码编译要看懂源码，肯定要学会编译源码。先去官网下载源码文件，然后解压编译安装。linux环境下进解压目录依次运...
JVM内存模型与数据结构
JAVA代码执行过程 JAVA源码编译由三个过程组成：源码编译机制、类加载机制、类执行机制。代码编译由JAVA源码...
WebRTC for Android-源码编译篇
目录编译环境搭建代码同步编译参数配置源码编译踩过的问题总结一、编译环境搭建首先，WebRTC源码编...
ijkplayer(一) 编译
源码获取源码拉取错误解决查看分支分支切换 2 android 编译 2.1 源码编译 2.1.1 根目录...
002-【Spring】源码编译
Spring源码编译 1、理解编译过程 1）Spring源码依赖gradle进行编译 2）不同版本的Spring依...