RDD编程

作者: d33911380280 | 来源:发表于2016-11-13 21:26 被阅读32次

1.读取数据，将RDD持久化到内存中，并进行行动操作。

Paste_Image.png

2.一般常用的是从外部存储中读取来创建RDD，如SparkContext.textFile()。还可以用parallelize读取程序中已有的一个集合，例子如下：
lines=sc.parallelize(['pandas','i like pandas'])

Paste_Image.png
3.RDD操作-转化操作
union为合并操作，filter为过滤操作。

Paste_Image.png

4.RDD操作-行动操作
对错误计数，并显示前两个错误。

Paste_Image.png
行动操作中的collect（）可以获取整个数据集，但是不能用于大数据集，这时一般存储于分布式存储系统中,函数为saveAsTextFile(),saveAsSequenceFile()。
5.向spark传递函数
建立.py文件

Paste_Image.png
运行.py文件

Paste_Image.png
6.常见的转化操作和行动操作
map：

Paste_Image.png

flatmap:

Paste_Image.png

reduce:

Paste_Image.png

aggregate:

Paste_Image.png

网友评论

本文标题： RDD编程

本文链接：https://www.haomeiwen.com/subject/ocvcpttx.html

RDD编程