SparkSQL 调优

作者: Alex90 | 来源:发表于2018-01-16 14:46 被阅读25次

SparkSQL 调优
JVM调优
Twitter 工程师谈 JVM 调优
Spark性能优化-开发调优
Spark性能优化-资源调优
Spark性能优化-数据倾斜调优
JVM-GC调优
成为一名Java高级架构师到底要学习哪些技术呢？
成为一名Java高级架构师你应该要学习的技术
成为一名Java高级架构师你应该要学习的技术

对一些SparkSQL任务，可以通过缓存数据、调优参数、增加并行度提升性能

缓存数据
sqlContext.cacheTable("tableName")或dataFrame.cache()构建一个内存中的列格式缓存
使用sqlContext.uncacheTable("tableName")移除缓存

缓存设置
可以通过sqlContext.setConf或在SQL中运行SET key=value
setConf("spark.sql.inMemoryColumnarStorage.compressed","true") ，为每列自动选择压缩码
setConf("spark.sql.inMemoryColumnarStorage.batchSize","1000") ，列式缓存的批处理大小，大批量可以提升内存使用率和压缩了，但是缓存是会有溢出风险

调优参数

参数	默认值	解释
spark.sql.autoBroadcastJoinThreshold	10485760(10M)	Join操作时，要被广播的表的最大字节数，-1为禁止广播
spark.sql.tungsten.enabled	true	开启tungsten优化
spark.sql.shuffle.partitions	200	shuffle数据时，可用分区数
spark.sql.planner.externalSort	true	根据需要执行Sort溢出到磁盘上，否则在每个分区内存中