美文网首页
《Spark技术内幕》读书笔记——RDD源码

《Spark技术内幕》读书笔记——RDD源码

作者: 抬头挺胸才算活着 | 来源:发表于2022-01-02 11:06 被阅读0次
  • 主要属性
    1、Partition
    RDD将数据分成多个分区,交给不同的Task计算,Partition记录了不同分区的数据的地址。每个分区的数据为一个Block,由BlockManager管理



    2、一个计算每个分区的函数
    3、RDD之间的依赖关系Lineage
    4、分片函数
    5、一个存储每个Partition的优先位置的列表。以“移动数据不如移动计算”的原则,这个列表可以在Spark计算某个Partition的时候,在存储Partition的节点上计算。

  • RDD之间的关系可以从两个角度理解:
    1、父parent是谁?
    2、依赖父parent哪些partition,从这个角度依赖可以分为宽依赖和窄依赖,具体可以看下《Spark大数据处理》读书笔记——容错机制

相关文章

网友评论

      本文标题:《Spark技术内幕》读书笔记——RDD源码

      本文链接:https://www.haomeiwen.com/subject/sbmwqrtx.html