美文网首页
Spark入门(Python)--1.2 RDD操作

Spark入门(Python)--1.2 RDD操作

作者: 大尾巴狼呀 | 来源:发表于2017-04-14 18:04 被阅读0次

转化操作:

RDD的转化操作是返回新的RDD的操作。转化出来的RDD是惰性求值的,只有在行动操作中用到时才会被计算。
转化操作虽然是惰性求值的,但是可以通过运行行动操作强制执行,比如count(),这种方法可以用于测试代码。

示例:filter()过滤

rdd = sc.textFile("D:/log.txt") sundayrdd = inputRDD.fliter(lambda x: "sunday" in x)
我们使用filter()过滤了rdd中有“sunday”的行。
filter() 或返回一个全新的RDD,不会改变inputRDD。
通过转化操作,从已经存在的RDD中派生出新的RDD,Spark会使用谱系图记录各个RDD之前的依赖关系。

谱系图

行动操作:

行动操作会把计算结果返回到驱动器程序或者写入外部存储系统中。因为行动操作会用需要生产实际的输出,它们会强制执行那些求值必须用到的RDD的转化操作。继续使用上面的例子。

示例:collect()遍历

print(sundayrdd.collect())
我们在驱动器程序中使用collect()在本地遍历了sundayrdd。需要注意的是collect()会把RDD拉取到本地,只有本地机器的内存能够放的下时才能使用collect(),不能在大规模数据集上使用。如果需要在大规模数据集上使用可以用foreach().

相关文章

  • Spark入门(Python)--1.2 RDD操作

    转化操作: RDD的转化操作是返回新的RDD的操作。转化出来的RDD是惰性求值的,只有在行动操作中用到时才会被计算...

  • Spark RDD Api使用指南

    ​ 在Spark快速入门-RDD文章中学了spark的RDD。spark包含转换和行动操作。在进行spark程...

  • 3.Spark学习(Python版本):Spark RDD编程基

    Spark中针对RDD的操作包括创建RDD、RDD转换操作和RDD行动操作。 Step1. 启动HDFS和Spar...

  • RDD详解

    RDD基本操作(引用) 1、RDD是什么 RDD:Spark的核心概念是RDD (resilientdistrib...

  • Spark笔记:RDD基本操作(上)

    本文主要是讲解spark里RDD的基础操作。RDD是spark特有的数据模型,谈到RDD就会提到什么弹性分布式数据...

  • 第三章 RDD编程

    RDD(弹性分布式数据集)是Spark的核心概念,Spark在对数据进行操作时,不外乎创建RDD,转化RDD以及调...

  • RDD、DataFrame、Dataset区别

    RDD: 1、RDD一般和spark mlib同时使用 2、RDD不支持sparksql操作 DataFrame:...

  • Spark数据操作—RDD操作

    Spark RDD操作 RDD(Resilient Distributed Dataset),弹性分布式数据集是一...

  • Spark Core

    1.spark core1.1 学习方法 1.2 什么是RDD 1.3 源码解释 1.3.1 源码中体现RDD的五...

  • Spark快速大数据分析(1)

    推荐序译者序序前言第1章 Spark数据分析导论第2章 Spark下载与入门第3章 RDD基础第4章 键值对操作第...

网友评论

      本文标题:Spark入门(Python)--1.2 RDD操作

      本文链接:https://www.haomeiwen.com/subject/qnqgattx.html