美文网首页
Spark 性能优化:重构 RDD 及 RDD 持久化

Spark 性能优化:重构 RDD 及 RDD 持久化

作者: stone_zhu | 来源:发表于2019-05-29 16:11 被阅读0次

在写 Spark 的应用时,应该尽量避免这两种情况:

1,几个功能明明可以在一个算子操作中完成,为了代码清晰,把这个算子拆分成多个算子进行操作。这种操作往往会增加很多的性能开销。

2,出现公用的 RDD 时候不做持久化操作,比如:

RDD复用

RDD2 是会被复用的 RDD,默认情况下,第一次使用 RDD2 生成 RDD3 时候会走一遍 HDFS -> RDD1 -> RDD2

然后用 RDD2 生成 RDD4 的时候,还会走一遍 HDFS -> RDD1 -> RDD2

这样就造成了重复计算。

针对上述的两种情况我们应该这样做:

1,能够在一个算子中操作完成的功能不用拆分到多个算子中去操作;

2,在要复用 RDD 的时候一定要对复用的那个 RDD 做持久化操作。

相关文章

  • Spark 性能优化:重构 RDD 及 RDD 持久化

    在写 Spark 的应用时,应该尽量避免这两种情况: 1,几个功能明明可以在一个算子操作中完成,为了代码清晰,把这...

  • RDD持久化

    RDD持久化 Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时,每个节点...

  • Spark RDD 持久化

    RDD Persistence Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久...

  • Spark性能优化之RDD持久化或Checkpoint

    1.使用序列化的持久化级别 除了对多次使用的RDD进行持久化操作之外,还可以进一步优化其性能。因为很有可能,RDD...

  • Spark性能调优篇二之重构RDD架构及RDD持久化

    上一篇介绍了一些关于提交Spark任务参数的调优,本片文章来聊聊一个Spark作业中RDD的重构,以及一些复用的R...

  • Spark 6. RDD 持久化

    RDD 持久化 原文地址: http://spark.apache.org/docs/latest/program...

  • Spark相关文章索引(3)

    环境部署 Spark2.1.0的Standalone模式部署 基本常识 spark中的rdd的持久化 Spark入...

  • spark开发调优

    开发调优原则一:避免创建重复的RDD原则二:尽可能复用同一个RDD原则三:对多次使用的RDD进行持久化Spark的...

  • Spark(十三) Spark性能调优之RDD持久化

    一、背景理念 1,RDD架构重构与优化 尽量去复用RDD,差不多的RDD,可以抽取称为一个共同的RDD,供后面的R...

  • Spark RDD持久化级别

    RDD持久化用于RDD重用和节省重新计算,方便构建迭代算法,缓存粒度为整个RDD 持久化级别 如何选择存储级别? ...

网友评论

      本文标题:Spark 性能优化:重构 RDD 及 RDD 持久化

      本文链接:https://www.haomeiwen.com/subject/lquvtctx.html