美文网首页
spark RDD的内部数据结构及不足

spark RDD的内部数据结构及不足

作者: scott_alpha | 来源:发表于2019-10-19 19:28 被阅读0次

    RDD由以下几个主要部分组成:
    partitions,partition集合,一个RDD中有多个data partition
    dependencies,RDD依赖关系,即对其他RDD的依赖列表
    compute,对于给定的数据集,需要作哪些计算,针对每个partition的计算函数,即同一个RDD的每个切片的数据使用相同的计算函数。
    preferedLocations,对于data partition的位置偏好

    不足:
    1.主要不支持细粒度的写操作
    2.不支持增量迭代计算(计算的时候只计算一部分数据)

    相关文章

      网友评论

          本文标题:spark RDD的内部数据结构及不足

          本文链接:https://www.haomeiwen.com/subject/xsunmctx.html