美文网首页
Spark中RDD是什么

Spark中RDD是什么

作者: atdoking | 来源:发表于2021-03-26 05:52 被阅读0次

    一、RDD是什么?

    RDD是一个弹性可复原的分布式数据集!
    RDD是一个逻辑概念,一个RDD中有多个分区,一个分区在Executor节点上执行时,他就是一个迭代器。

    一个RDD有多个分区,一个分区肯定在一台机器上,但是一台机器可以有多个分区,我们要操作的是分布在多台机器上的数据,而RDD相当于是一个代理,对RDD进行操作其实就是对分区进行操作,就是对每一台机器上的迭代器进行操作,因为迭代器引用着我们要操作的数据!

    二、RDD的五大特性

    RDD是由多个分区组成的集合

    每个分区上会有一个函数作用在上面,实现分区的转换

    RDD与RDD之间存在依赖关系,实现高容错性

    如果RDD里面装的是(K-V)类型的,有分区器

    如果从HDFS这种文件系统中创建RDD,会有最佳位置,是为了数据本地化

    相关文章

      网友评论

          本文标题:Spark中RDD是什么

          本文链接:https://www.haomeiwen.com/subject/ufddhltx.html