美文网首页spark
1.2 Spark-RDD弹性的七大特性

1.2 Spark-RDD弹性的七大特性

作者: 不羁之后_ | 来源:发表于2019-07-05 16:53 被阅读0次

    1.自动进行内存和磁盘存储的切换

    spark会优先将数据存储在内存中,如果内存放不下,才把数据写入磁盘,不但能计算内存中的数据,也能计算内存放不下的数据。

    2.基于Lineage(血统)高容错机制

    Lineage是基于spark的依赖关系来完成,每个操作只关联父操作,各分片之间的数据互不影响,出现错误的时候只需要恢复单个的split特定部分。

    常规容错方式有两种:

    数据检查点

    通过数据中心的网络连接各台机器,如果发生checkPoint的时候就需要复制数据,复制是要通过网络传输的,因此网络宽带是分布式的瓶颈,对存储的资源也是很大的消耗。

    记录数据的更新

    当有数据更新的时候,就需要记录数据,这种方式不需要复制数据集。

    • RDD是不可变的且lazy的
    • RDD的写操作是粗粒度的、读操作可以是粗粒度,也可以是细粒度。

    3.Task失败会进行特定次数的重试

    默认重试次数是4次。TaskSchedulimpl的源码如下:

      def this(sc: SparkContext) = {
        this(
          sc,
          sc.conf.get(config.MAX_TASK_FAILURES),
          TaskSchedulerImpl.maybeCreateBlacklistTracker(sc))
      }
    
      private[spark] val MAX_TASK_FAILURES =
        ConfigBuilder("spark.task.maxFailures")
          .intConf
          .createWithDefault(4)
    

    4.Stage失败,会自动进行特定次数的重试

    Stage可以跟踪多个StageInfo(存储SparkListener监听到的所有Stage信息,将Stage信息传递给Listeners或web UI)。重试默认次数是4次,且可以直接运行计算失败的阶段,只计算失败的数据分片,具体Stage源码如下:

    private[spark] object DAGScheduler {
      // The time, in millis, to wait for fetch failure events to stop coming in after one is detected;
      // this is a simplistic way to avoid resubmitting tasks in the non-fetchable map stage one by one
      // as more failure events come in
      val RESUBMIT_TIMEOUT = 200
    
      // Number of consecutive stage attempts allowed before a stage is aborted
      val DEFAULT_MAX_CONSECUTIVE_STAGE_ATTEMPTS = 4
    }
    

    5.checkpoint和persist(检查点和持久化),可以主动或被动触发

    checkpoint是对RDD进行的标记,会产生一系列的文件,且所有父依赖都会被删除,是整个依赖的终点。checkpoint是lazy级别的。
    persist后,RDD的每个分片会保存在内存或磁盘中,下一次使用相同RDD进行其他action计算的时候,就可以重用。

    6.数据调度弹性、DAGSchedule、TaskSchedule调度和资源调度无关

    spark讲执行模型抽象成有向无环图(Stage),各个Stage之间可以串行或这并行,从而不需要把Stage的中间结果输出到HDFS中,当节点发生故障时,其他节点可以替代该节点运行。

    7.数据分片的高度弹性

    相关文章

      网友评论

        本文标题:1.2 Spark-RDD弹性的七大特性

        本文链接:https://www.haomeiwen.com/subject/safehctx.html