1 RDD

作者: Achaichai | 来源:发表于2018-07-11 18:53 被阅读0次

    SparkContext

    • Driver programs 通过SparkContext对象访问Spark
    • SparkContext对象代表和一个集群的连接
    • 在Shell中SparkContext自动创建好了,就是sc

    RDDs

    • Resilient distributed datasets(弹性分布式数据集,简写RDDs)
      这些RDDs,并行的分布在整个集群中。
    • RDDs是Spark分发数据和计算的基础抽象类
    • 一个RDD是一个不可改变的分布式集合对象
    • Spark中,所有的计算都是通过RDDs的创建,转换,操作完成的
    • 一个RDD内部由许多partitions(分片)组成

    分片

    • 每个分片包括一部分数据,partitions可在集群不同节点上计算
    • 分片是Spark并行处理的单元,Spark顺序的,并行的处理分片

    RDDs的创建方法

    1 把一个存在的集合传给SparkContext的parallelize()方法,测试用

    val rdd = sc.parallelize(Array(1,2,2,4),4)
    

    第1个参数:待并行化处理的集合,第2个参数:分区个数
    2 加载外部数据集

    val rddText = sc.textFile("helloSpark.txt")
    

    相关文章

      网友评论

          本文标题:1 RDD

          本文链接:https://www.haomeiwen.com/subject/vtbhpftx.html