美文网首页
Spark性能优化(一)

Spark性能优化(一)

作者: 尘世中一介迷途小码农 | 来源:发表于2017-07-11 22:40 被阅读0次

问题1:val rdd = data.filter(f1).filter(f2).reduceBy经过以上几步会有很多空任务或者小任务,这样的话将大量的开销做了Task的准备工作。

解决:使用repartition去减少RDD中的partition数量。

问题2:每个记录的开销太大

rdd.map{x=>conn=getDBConn;conn.write(x.toString);conn.close}

解决:rdd.mapPartitions(records =>conn.getDBConn;for(item <-records))write(item.toString); conn.close)

就是写代码时批量操作数据库。

问题3: 任务执行速度倾斜

解决:

1.数据倾斜:考虑并行处理方法,中间可以加入一步aggregation

具体的解决方法大概有6种。

2.Worker倾斜(在某些worker上的executor不给力)

设置spark.speculation=true 把那些持续不给力的node去掉

问题4:不设置spark.local.dir 这是spark写shuffle输出的地方 (这种方法用的不多!)

解决:设置一组磁盘

spark.local.dir=/mn1/spark, /mnt2/spar, /mnt3/spark 增加IO即加快速度

问题5: reducer数量不合适

解决:

太多的reducer,造成很多的小任务,以此产生很多启动任务的开销。

太少的reducer,任务执行慢!!

reduce的任务数还会影响到内存

问题6:collect输出大大量结果慢

解决: 直接输出到分布式⽂文件系统

问题7:序列化

Spark默认使用JDK自带的ObjectOutputStream

兼容性好,体积大,速度慢

解决: 使⽤用Kryo serialization

体积小,速度快

相关文章

  • Awesome Extra

    性能优化 性能优化模式 常见性能优化策略的总结 Spark 性能优化指南——基础篇 Spark 性能优化指南——高...

  • Spark 性能优化方案

    Spark 性能优化方案(转自李智慧的Spark性能优化方案): Spark性能测试工具 •Spark性能测试基准...

  • Spark性能调优

    《Spark性能优化:开发调优篇》《Spark性能优化:资源调优篇》《Spark性能优化:数据倾斜调优》《Spar...

  • Spark性能优化:数据倾斜调优(转)

    《Spark性能优化:开发调优篇》《Spark性能优化:资源调优篇》《Spark性能优化:数据倾斜调优》《Spar...

  • Spark性能优化:开发调优篇(转)

    《Spark性能优化:开发调优篇》《Spark性能优化:资源调优篇》《Spark性能优化:数据倾斜调优》《Spar...

  • Spark性能优化:资源调优篇(转)

    《Spark性能优化:开发调优篇》《Spark性能优化:资源调优篇》《Spark性能优化:数据倾斜调优》《Spar...

  • spark性能调优

    [Spark性能优化指南——基础篇][Spark性能优化指南——高级篇]

  • 目录

    Spark之参数介绍 Spark之性能优化2.1. 官方性能优化指南2.2. Spark性能优化指南——基础篇2....

  • 美团关于大数据技术的文章

    Spark性能优化指南——基础篇Spark性能优化指南——高级篇Spark在美团的实践Kafka文件存储机制那些事...

  • Spark性能优化篇三:数据倾斜调优

    前言 继Spark性能优化篇二: 开发调优和Spark性能优化篇一:资源调优讲解了每个Spark开发人员都必须熟...

网友评论

      本文标题:Spark性能优化(一)

      本文链接:https://www.haomeiwen.com/subject/dhhvhxtx.html