Spark入门（Python）--1.1 RDD基础

Spark入门（Python）--1.1 RDD基础

作者: 大尾巴狼呀 | 来源:发表于2017-04-14 17:38 被阅读0次

Spark入门（Python）--1.1 RDD基础
Spark编程基础（Scala版）——RDD编程
Spark RDD Api使用指南
Spark基础二之RDD编程
大数据面试
spark RDD详解
Spark的算子(函数)
第一讲 spark简介
spark
Spark笔记：RDD基本操作（上）

该系列spark学习笔记基于Python Spark.

RDD（弹性分布式数据集）是一个不可变的分布式对象集合，可以包含Python、Java、Scala中任意类型的对象，和用户自己定义的对象。

创建RDD有两种方式：1、读取外部数据集。2、在驱动器程序中对一个集合进行并行化。最简单的方式就是把程序中一个已经存在的集合传给SparkContext的parallelize()方法。这种方法适合在shell中快速创建RDD。

1：lines = sc.textFile("D:/text")

2：lines = sc.parallelize(["pandas","i like pandas"])

RDD编程支持两种操作：转化操作和行动操作。转化操作会由一个RDD生产一个新的RDD。行动操作会对RDD计算出一个结果，或把结果写入外部系统的操作，会实际触发的计算。转化操作会被惰性地执行，只有第一次在一个行动操作中用到的RDD才会被真正计算。如：转化操作filter会过滤RDD但是只有在执行行动操作后filter才会被真正的执行。

示例：

pythonLines = lines.filter(lambda line:"Python" in line)

pythonLines.first()

filter操作只有在first操作执行的时候才会被执行。

区分两种操作的方式可以通过函数的返回值类型：转化操作返回的是RDD，行动操作返回的是其他的数据类型。

相关文章

Spark入门（Python）--1.1 RDD基础
该系列spark学习笔记基于Python Spark. RDD（弹性分布式数据集）是一个不可变的分布式对象集合，可...
Spark编程基础（Scala版）——RDD编程
1、RDD编程基础 1.1 RDD创建 Spark采用textFile()方法来从文件系统中加载数据创建RDD 1...
Spark RDD Api使用指南
在Spark快速入门-RDD文章中学了spark的RDD。spark包含转换和行动操作。在进行spark程...
Spark基础二之RDD编程
Spark基础二之RDD编程 RDD弹性分布式数据集 Python、Java、Scala中任意类型的对象或者用户自...
大数据面试
93.用spark 实现WordCount 1.1.spark里面 RDD.persist和RDD.cache的区...
spark RDD详解
一、 RDD概念 1.1、RDD为什么会产生？ RDD是Spark的基石，是实现Spark数据处理的核心抽象。那么...
Spark的算子(函数)
Spark的算子 1、RDD基础什么是RDD？ RDD（Resilient Distributed Datase...
第一讲 spark简介
本章要点：什么是spark Spark生态圈 RDD编程模型 1.1 什么是Spark Apache Spark...
spark
*Spark Spark 函数Spark (Python版) 零基础学习笔记（一）—— 快速入门 1.map与fl...
Spark笔记：RDD基本操作（上）
本文主要是讲解spark里RDD的基础操作。RDD是spark特有的数据模型，谈到RDD就会提到什么弹性分布式数据...

网友评论

本文标题：Spark入门（Python）--1.1 RDD基础

本文链接：https://www.haomeiwen.com/subject/hffgattx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Spark入门（Python）--1.1 RDD基础|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！