Spark性能调优

作者: 见丰 | 来源:发表于2017-03-06 10:10 被阅读35次

Spark性能调优
Spark性能优化：数据倾斜调优（转）
Spark性能优化：开发调优篇（转）
Spark性能优化：资源调优篇（转）
Spark性能优化篇三：数据倾斜调优
spark 优化分析方向 (性能调优）
Spark性能调优九之常用算子调优
Spark性能优化-开发调优
Spark性能优化-资源调优
Spark性能优化-数据倾斜调优

尽可能的过滤原始数据
在上次实践中，我们使用

spark.read.jdbc(mysqlHelper.DB_URL_R,"t_rfid_card",
    Array("org_id="+ORG_ID),
    mysqlHelper.PROPERTIES)

过滤并读取了数据库。如果我们要多加几个过滤条件，要小心一个陷阱，Array[String]参数并不是用来叠加过滤条件的，在文档中说明了这一点：

所以如果是要叠加过滤条件，只能在一个字符串内拼接，像这样：

spark.read.jdbc(mysqlHelper.DB_URL_R, "t_medical_waste",
    Array("org_id = " + ORG_ID+" AND YEAR(rec_ts) = "+YEAR), 
    mysqlHelper.PROPERTIES)

spark.default.parallelism设置
这里有一篇很好的优化指南。在standalone模式下，情况要简单一些，这个值相当于每个核分配2~3个线程的所有线程总和。修改在conf/spark-defaults.conf中。

Spark性能调优
《Spark性能优化：开发调优篇》《Spark性能优化：资源调优篇》《Spark性能优化：数据倾斜调优》《Spar...
Spark性能优化：数据倾斜调优（转）
《Spark性能优化：开发调优篇》《Spark性能优化：资源调优篇》《Spark性能优化：数据倾斜调优》《Spar...
Spark性能优化：开发调优篇（转）
《Spark性能优化：开发调优篇》《Spark性能优化：资源调优篇》《Spark性能优化：数据倾斜调优》《Spar...
Spark性能优化：资源调优篇（转）
《Spark性能优化：开发调优篇》《Spark性能优化：资源调优篇》《Spark性能优化：数据倾斜调优》《Spar...
Spark性能优化篇三：数据倾斜调优
前言继Spark性能优化篇二：开发调优和Spark性能优化篇一：资源调优讲解了每个Spark开发人员都必须熟...
spark 优化分析方向 (性能调优）
第1章 Spark 性能调优 1.1 常规性能调优 1.1.1 常规性能调优一：最优资源配置可以进行分配的资源如...
Spark性能调优九之常用算子调优
前面介绍了很多关于Spark性能的调优手段，今天来介绍一下Spark性能调优的最后一个点，就是关于Spark中常用...
Spark性能优化-开发调优
Spark性能优化分为四个方面： 1、开发调优2、资源调优3、数据倾斜调优4、shuffle调优 1. 开发调优 ...
Spark性能优化-资源调优
Spark性能优化分为四个方面： 1、开发调优2、资源调优3、数据倾斜调优4、shuffle调优资源调优 num...
Spark性能优化-数据倾斜调优
Spark性能优化分为四个方面： 1、开发调优2、资源调优3、数据倾斜调优4、shuffle调优数据倾斜调优 1...