美文网首页DataAn
一些Spark知识点记录

一些Spark知识点记录

作者: 某张三 | 来源:发表于2023-01-21 23:23 被阅读0次

    Spark

    RDD: 弹性分布式数据集 (Resilient Distributed DataSet)

    RDD的三个基本特性:分区、不可变、并行操作

    1、分区

    每一个 RDD 包含的数据被存储在系统的不同节点上。

    在物理存储中,每个分区指向一个存储在内存或者硬盘中的数据块 (Block) ,其实这个数据块

    就是每个 task 计算出的数据块,它们可以分布在不同的节点上。

    RDD 只是抽象意义的数据集合,分区内部并不会存储具体的数据,只会存储它在该 RDD 中的 index,

    通过该 RDD 的 ID 和分区的 index 可以唯一确定对应数据块的编号,然后通过底层存储层的接口提取到数据进行处理。

    2、不可变

    每个 RDD 都是只读的,它所包含的分区信息是不可变的。

    由于已有的 RDD 是不可变的,所以我们只有对现有的 RDD 进行转化 (Transformation) 操作,

    才能得到新的 RDD ,一步一步的计算出我们想要的结果。

    3、并行操作

    因为 RDD 的分区特性,所以其天然支持并行处理的特性。

    即不同节点上的数据可以分别被处理,然后生成一个新的 RDD。

    RDD的结构:

    a.Partitions

    b.SparkContext

    c.SparkConf

    d.Partitioner

    e.Dependencies

    f.Checkpoint

    g.Preferred Location

    h.Storage Level

    i.Iterator

    相关文章

      网友评论

        本文标题:一些Spark知识点记录

        本文链接:https://www.haomeiwen.com/subject/ihizcdtx.html