1 RDD

作者: Achaichai | 来源:发表于2018-07-11 18:53 被阅读0次

SparkContext

  • Driver programs 通过SparkContext对象访问Spark
  • SparkContext对象代表和一个集群的连接
  • 在Shell中SparkContext自动创建好了,就是sc

RDDs

  • Resilient distributed datasets(弹性分布式数据集,简写RDDs)
    这些RDDs,并行的分布在整个集群中。
  • RDDs是Spark分发数据和计算的基础抽象类
  • 一个RDD是一个不可改变的分布式集合对象
  • Spark中,所有的计算都是通过RDDs的创建,转换,操作完成的
  • 一个RDD内部由许多partitions(分片)组成

分片

  • 每个分片包括一部分数据,partitions可在集群不同节点上计算
  • 分片是Spark并行处理的单元,Spark顺序的,并行的处理分片

RDDs的创建方法

1 把一个存在的集合传给SparkContext的parallelize()方法,测试用

val rdd = sc.parallelize(Array(1,2,2,4),4)

第1个参数:待并行化处理的集合,第2个参数:分区个数
2 加载外部数据集

val rddText = sc.textFile("helloSpark.txt")

相关文章

网友评论

      本文标题:1 RDD

      本文链接:https://www.haomeiwen.com/subject/vtbhpftx.html