美文网首页
RDD编程

RDD编程

作者: d33911380280 | 来源:发表于2016-11-13 21:26 被阅读32次

    1.读取数据,将RDD持久化到内存中,并进行行动操作。


    Paste_Image.png

    2.一般常用的是从外部存储中读取来创建RDD,如SparkContext.textFile()。还可以用parallelize读取程序中已有的一个集合,例子如下:
    lines=sc.parallelize(['pandas','i like pandas'])


    Paste_Image.png
    3.RDD操作-转化操作
    union为合并操作,filter为过滤操作。
    Paste_Image.png

    4.RDD操作-行动操作
    对错误计数,并显示前两个错误。


    Paste_Image.png
    行动操作中的collect()可以获取整个数据集,但是不能用于大数据集,这时一般存储于分布式存储系统中,函数为saveAsTextFile(),saveAsSequenceFile()。
    5.向spark传递函数
    建立.py文件
    Paste_Image.png
    运行.py文件
    Paste_Image.png
    6.常见的转化操作和行动操作
    map:
    Paste_Image.png
    Paste_Image.png

    flatmap:

    Paste_Image.png Paste_Image.png

    reduce:


    Paste_Image.png

    aggregate:


    Paste_Image.png

    相关文章

      网友评论

          本文标题: RDD编程

          本文链接:https://www.haomeiwen.com/subject/ocvcpttx.html