美文网首页
RDD基础-笔记

RDD基础-笔记

作者: 一不了留心长帅了 | 来源:发表于2019-10-14 13:41 被阅读0次

RDD编程

基础Spark中的RDD是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这些分区运行在集群中的不同节点上。RDD可以包含Python、java、Scala中任意类型的对象,甚至可以包含用户自定义的对象。两种方法创建RDD:
1. 读取一个外部数据集
2. 在驱动器程序里分发驱动器程序中的对象集合(比如list和set)。

RDD 支持的操作:
1. 转化操作(transformation):一个RDD生成一个新的RDD。
2. 行动操作(action):会对RDD计算出一个结果,并把结果返回到驱动器程序中,或把结果存储到外部。
3. 虽可以在任何时候定义新的RDD,但Spark只会惰性计算这些RDD。他们只有第一次在一个行动操作中用到时,才会真正计算。
4. 默认情况下,Spark的RDD会在你每次对他们进行行动操作时重新计算。(在任何时候都能进行重算是我们为什么把RDD描述为“弹性的原因”)如果想在多个行动操作中重用同一个RDD,可以使用RDD.persist()让Spark把这个RDD缓存下来。

每个Spark程序或shell会话都按如下方式工作。
1. 从外部数据创建出输入RDD。
2. 使用诸如filter()这样的转化操作对RDD进行转化,以定义新的RDD。
3. 告诉Spark对需要被重用的中间结果RDD执行persist()操作。
4. 使用行动操作(例如count()和first()等)来触发一次并行计算,Spark会对计算进行优化后再执行。

errorsRDD = inputRDD.filter(lambad x:"error" in x)
warningsRDD = inputRDD.filter(lamdba x: "warning" in x)
badLinesRDD = errorsRDD.union(warningRDD)

cache()与使用默认存储级别调用persist()是一样的。
count()返回计数结果
take() 收集RDD中的一些元素

相关文章

  • RDD基础-笔记

    RDD编程 基础Spark中的RDD是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这些分区运行在集群中...

  • RDD基础-笔记

    RDD编程 基础Spark中的RDD是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这些分区运行在集群中...

  • Spark的算子(函数)

    Spark的算子 1、RDD基础 什么是RDD? RDD(Resilient Distributed Datase...

  • 【Spark入门-笔记】RDD编程

    1 RDD基础 2 创建RDD-两种方式 2.1 进行并行化创建RDD 2.2 读取数据创建RDD 3 RDD操作...

  • Spark RDD操作练习 1

    RDD 基础练习

  • spark笔记总结

    RDD基础: transformation操作:由一个RDD生成新的RDD, 转化操作是惰性的 action操作:...

  • PySpark-数据操作-RDD

    更多信息https://blue-shadow.top/ RDD 编程基础 相关概念 pair RDD ...

  • Spark-core:Spark的算子

    目录一.RDD基础1.什么是RDD2.RDD的属性3.RDD的创建方式4.RDD的类型5.RDD的基本原理二.Tr...

  • Spark系列2 - Spark RDD编程

    一、RDD 编程基础 1 RDD 创建 从文件系统创建RDD textFile textFile参数说明:若参数是...

  • RDD编程

    RDD基础概念: RDD:弹性分布式数据集(Resilient Distributed Dataset),spar...

网友评论

      本文标题:RDD基础-笔记

      本文链接:https://www.haomeiwen.com/subject/azkrmctx.html