1. 准备工作

首先你的系统中需要安装了 JDK 1.6+，并且安装了 Scala。之后下载最新版的 IntelliJ IDEA 后，首先安装（第一次打开会推荐你安装）Scala 插件，相关方法就不多说了。至此，你的系统中应该可以在命令行中运行 Scala。我的系统环境如下：

Win7
JDK 1.7.793
Scala 2.10.44.
IntelliJ IDEA 14

另外，最后还是建议大家开始先使用 pre-built 的 Spark，对 Spark 的运行、使用方法有所了解，编写了一些 Spark 应用程序后再展开源代码的阅读，并尝试修改源码，进行手动编译。

2. 从 Github 导入 Spark 工程

打开IntelliJ IDEA 后，在菜单栏中选择 VCS→Check out from Version Control→Git，之后在 Git Repository URL 中填入 Spark 项目的地址，并指定好本地路径，如下图所示。

点击该窗口中的的 Clone 后，开始从 Github 中 clone 该项目，该过程试你网速而定，大概需要3-10分钟。

3. 编译 Spark(开发 jar 包)

当 clone 完毕后，IntelliJ IDEA 会自动提示你该项目有对应的 pom.xml 文件，是否打开。这里直接选择 Open 该 pom.xml 文件，然后系统会自动解析项目的相关依赖，该步骤也会因你的网络和系统相关环境，所需时间不同。
进入Spark 根目录：
依次执行如下命令
sbt assembly
sbt package

可能存在的问题

如果失败，可以尝试多次执行
如果提示can run bash，可以尝试安装git 然后将bin 目录配置到环境变量中
安装sbt时，注意切换国内的源
该编译命令将全部采用默认的配置来编译 Spark，若想指定相关组件的版本，可以查看 Spark 官网中的 Build-Spark(http://spark.apache.org/docs/latest/building-spark.html)），查看所有常用的编译选项。该过程目前不需要 VPN 即可完成，为了预估编译所需的时间，你可以在新开一个 shell 终端，不断查看 spark 项目目录的大小，我最终采用默认配置，编译成功后的 spark 目录大小为2.0G。

Paste_Image.png

最后如果可以运行spark-shell 证明编译成功了，激动！

Paste_Image.png

4.编译 spark (生成部署安装包)

编译完源代码后，虽然直接用编译后的目录再加以配置就可以运行spark，但是这时目录很庞大，部署起来不方便，所以需要生成部署包。spark源码根目录下带有一个脚本文件make-distribution.sh可以生成部署包，其参数有：
--tgz：在根目录下生成 spark-$VERSION-bin.tar.gz，不加参数是不生成tgz文件，只生成/dist目录。--hadoop VERSION：打包时所用的Hadoop版本号，不加参数时为1.0.4。--with-yarn：是否支持Hadoop YARN，不加参数时为不支持yarn。--with-tachyon：是否支持内存文件系统Tachyon，不加参数时为不支持，此参数spark1.0.0-SNAPSHOT之后提供。

如果要生成spark支持yarn、hadoop2.6.0的部署包，只需要将源代码复制到指定目录，进入该目录后运行：
make-distribution.sh --name custom-spark --tgz -Psparkr -Phadoop-2.6 -Phive -Phive-thriftserver -Pyarnmake-distribution.sh --tgz --skip-java-test -Pyarn -Phadoop-2.6-Dhadoop.version=2.6.0 -Phive -Phive-thriftserver -DskipTests clean package

--tgz：在根目录下生成 spark-$VERSION-bin.tar.gz，不加参数是不生成tgz文件，只生成/dist目录。
--hadoop VERSION：打包时所用的Hadoop版本号，不加参数时为1.0.4。
--with-yarn：是否支持Hadoop YARN，不加参数时为不支持yarn。
--with-tachyon：是否支持内存文件系统Tachyon，不加参数时为不支持，此参数spark1.0.0-SNAPSHOT之后提供。

如果要生成spark支持yarn、hadoop2.6.0的部署包，只需要将源代码复制到指定目录，进入该目录后运行：
make-distribution.sh --name custom-spark --tgz -Psparkr -Phadoop-2.6 -Phive -Phive-thriftserver -Pyarn
make-distribution.sh --tgz --skip-java-test -Pyarn -Phadoop-2.6-Dhadoop.version=2.6.0 -Phive -Phive-thriftserver -DskipTests clean package

5. 结束语

至此，为了检验你的编译结果，可以在命令行中进入 spark/bin 目录，运行 spark-shell，若一切都正常启动，则编译成功。若你修改了 Spark 的源码，可以重新使用 sbt 来进行编译，并且编译的时间不会像第一次编译那么长。自己编译成功之后，接下来可以好好搞搞源码了，自己调试运行。 Let's go Spark!