1.读取数据,将RDD持久化到内存中,并进行行动操作。
Paste_Image.png
2.一般常用的是从外部存储中读取来创建RDD,如SparkContext.textFile()。还可以用parallelize读取程序中已有的一个集合,例子如下:
lines=sc.parallelize(['pandas','i like pandas'])
Paste_Image.png
3.RDD操作-转化操作
union为合并操作,filter为过滤操作。
Paste_Image.png
4.RDD操作-行动操作
对错误计数,并显示前两个错误。
Paste_Image.png
行动操作中的collect()可以获取整个数据集,但是不能用于大数据集,这时一般存储于分布式存储系统中,函数为saveAsTextFile(),saveAsSequenceFile()。
5.向spark传递函数
建立.py文件
Paste_Image.png
运行.py文件
Paste_Image.png
6.常见的转化操作和行动操作
map:
Paste_Image.png
Paste_Image.png
flatmap:
Paste_Image.png Paste_Image.pngreduce:
Paste_Image.png
aggregate:
Paste_Image.png
网友评论