RDD五大特性

作者: 大数据修行 | 来源:发表于2019-05-24 15:44 被阅读0次

1. a list of partitions

2. a function for computing each split

3. a list dependencies on other RDDs

4. optionally, a partitioner for key-value RDDS

(比如按照key的hash值进行重分区)

5. optionally, a list of preferred locations to compute each split on

  /**
   * :: DeveloperApi ::
   * Implemented by subclasses to compute a given partition.
   */
  @DeveloperApi
  def compute(split: Partition, context: TaskContext): Iterator[T]

  /**
   * Implemented by subclasses to return the set of partitions in this RDD. This method will only
   * be called once, so it is safe to implement a time-consuming computation in it.
   *
   * The partitions in this array must satisfy the following property:
   *   `rdd.partitions.zipWithIndex.forall { case (partition, index) => partition.index == index }`
   */
  protected def getPartitions: Array[Partition]

  /**
   * Implemented by subclasses to return how this RDD depends on parent RDDs. This method will only
   * be called once, so it is safe to implement a time-consuming computation in it.
   */
  protected def getDependencies: Seq[Dependency[_]] = deps

  /**
   * Optionally overridden by subclasses to specify placement preferences.
   */
  protected def getPreferredLocations(split: Partition): Seq[String] = Nil

  /** Optionally overridden by subclasses to specify how they are partitioned. */
  @transient val partitioner: Option[Partitioner] = None

  // 

相关文章

  • Saprk面试

    1. 谈谈Spark RDD 的几大特性,并深入讲讲体现在哪?Spark的RDD有五大特性: A list of ...

  • SparkCore之RDD

    RDD 五大特性 A list of partitions一组分区:多个分区,在RDD中用分区的概念。 A fun...

  • RDD依赖关系

    前言 RDD的五大特性 A list of partitions一组分区:多个分区,在RDD中用分区的概念。 A ...

  • RDD五大特性

    1. a list of partitions 2. a function for computing each ...

  • RDD

    RDD 弹性式分布数据集 可以理解为Spark的一个对象RDD五大特性1.由一系列的Partition组成,如果计...

  • Spark RDD 剖析

    RDD五大特性 1 a list of partitions(一系列分区组成的)2 每一个分区都有一个functi...

  • 大数据技术,Spark之RDD,RDD超详细讲解(二)

    一、RDD的特性 Spark之所以成为目前比较主流的大数据处理技术,其中RDD的特性和机制占到很大比重,没有RDD...

  • Spark 核心 RDD 剖析(上)

    本文将通过描述 Spark RDD 的五大核心要素来描述 RDD,若希望更全面了解 RDD 的知识,请移步 RDD...

  • Spark RDD 持久化

    RDD Persistence Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久...

  • Spark

    RDD五大特征:https://blog.csdn.net/wyqwilliam/article/details/...

网友评论

    本文标题:RDD五大特性

    本文链接:https://www.haomeiwen.com/subject/gtawzqtx.html