美文网首页
Spark入门(Python)--1.1 RDD基础

Spark入门(Python)--1.1 RDD基础

作者: 大尾巴狼呀 | 来源:发表于2017-04-14 17:38 被阅读0次

该系列spark学习笔记基于Python Spark.

RDD(弹性分布式数据集)是一个不可变的分布式对象集合,可以包含Python、Java、Scala中任意类型的对象,和用户自己定义的对象。

创建RDD有两种方式:1、读取外部数据集。2、在驱动器程序中对一个集合进行并行化。最简单的方式就是把程序中一个已经存在的集合传给SparkContext的parallelize()方法。这种方法适合在shell中快速创建RDD。

1:lines = sc.textFile("D:/text")

2:lines = sc.parallelize(["pandas","i like pandas"])

RDD编程支持两种操作:转化操作和行动操作。转化操作会由一个RDD生产一个新的RDD。行动操作会对RDD计算出一个结果,或把结果写入外部系统的操作,会实际触发的计算。转化操作会被惰性地执行,只有第一次在一个行动操作中用到的RDD才会被真正计算。如:转化操作filter会过滤RDD但是只有在执行行动操作后filter才会被真正的执行

示例:

pythonLines = lines.filter(lambda line:"Python" in line)

pythonLines.first()

filter操作只有在first操作执行的时候才会被执行。

区分两种操作的方式可以通过函数的返回值类型:转化操作返回的是RDD,行动操作返回的是其他的数据类型。

相关文章

  • Spark入门(Python)--1.1 RDD基础

    该系列spark学习笔记基于Python Spark. RDD(弹性分布式数据集)是一个不可变的分布式对象集合,可...

  • Spark编程基础(Scala版)——RDD编程

    1、RDD编程基础 1.1 RDD创建 Spark采用textFile()方法来从文件系统中加载数据创建RDD 1...

  • Spark RDD Api使用指南

    ​ 在Spark快速入门-RDD文章中学了spark的RDD。spark包含转换和行动操作。在进行spark程...

  • Spark基础二之RDD编程

    Spark基础二之RDD编程 RDD弹性分布式数据集 Python、Java、Scala中任意类型的对象或者用户自...

  • 大数据面试

    93.用spark 实现WordCount 1.1.spark里面 RDD.persist和RDD.cache的区...

  • spark RDD详解

    一、 RDD概念 1.1、RDD为什么会产生? RDD是Spark的基石,是实现Spark数据处理的核心抽象。那么...

  • Spark的算子(函数)

    Spark的算子 1、RDD基础 什么是RDD? RDD(Resilient Distributed Datase...

  • 第一讲 spark简介

    本章要点: 什么是spark Spark生态圈 RDD编程模型 1.1 什么是Spark Apache Spark...

  • spark

    *Spark Spark 函数Spark (Python版) 零基础学习笔记(一)—— 快速入门 1.map与fl...

  • Spark笔记:RDD基本操作(上)

    本文主要是讲解spark里RDD的基础操作。RDD是spark特有的数据模型,谈到RDD就会提到什么弹性分布式数据...

网友评论

      本文标题:Spark入门(Python)--1.1 RDD基础

      本文链接:https://www.haomeiwen.com/subject/hffgattx.html