Spark编程讲解

作者: 海盗公爵 | 来源:发表于2017-03-11 17:56 被阅读65次
    1. Spark严重依赖传递函数类型的参数,即 在spark中,transformation 和 action接收的参数绝大部分都是函数类型
      两种建议的使用用法:
      1. 一种是匿名函数,适用于小片段的代码。
      2. 传递object对象中的静态方法
      不建议的做法:
      使用普通类的方法,必须将此类的实例一起传进去,此普通类必须继承java.io.Serializable.即普通类必须有序列化的能力。

    2. RDD是弹性分布式数据集,实际计算是分布在各个节点上,但是RDD的计算过程都是在Driver程序中定义的。当代码从Driver中分发至各计算节点有一个过程,可以认为为4步:

      1. 在Driver节点序列化代码
      2. 传送至各计算节点
      3. 在计算节点反序列化
      4. 执行execute
    3. 在Spark中,每个Job的执行,都会经历序列化、网络传输、反序列化和运行的过程。Spark会将Job运行所以来的变量、方法(称为闭包)全部打包在一起序列化,相当于他们的一份副本。

    4. 理解以键值对为参数的操作
      <key, value> 运算PairRDDFunction类,自动处理RDD元组。

    5. Transformation操作
      Transformation操作都是接收一个RDD作为输入,返回一个新的RDD。
      map(func) 对源RDD中的每个元素调用func,生成新的元素,这些新的元素构成新的RDD并返回。
      flatMap(func) 每个输入的RDD成员可以产生0个或者多个输出成员,所以func得返回值类型为Seq类型,但是RDD会自动将其转为单成员。
      filter(func)对RDD进行过滤
      mapPartitions(func) map中func的作用的是RDD中的每个元素,而mapPartitions中的func作用的对象是RDD中的一整个分区
      func的类型是 Iterator<T> => Iterator<U>
      mapPartitionsWithIndex9func) 与mapPartitions类似,但输入会多提供一个整数表示分区的编号,所以func得类型是(Int, Iterator<T>) => Iterator<U> 多了一个Int
      sample(withReplacement, fraction, seed) 对RDD进行抽样,withReplacement为true时表示抽样之后还放回。可以多次被抽样,false表示不放回, fraction为浮点数,表示抽样比例; seed为随机数种子,比如当前时间戳)
      union(otherDataset) 合并两个RDD,不去重, 要求两个RDD中的元素类型一致
      distinct([numberTasks]) 对原RDD进行去重操作,返回的RDD中没有重复成员
      groupByKey([numberTasks]) 对<key, value>结构的RDD进行雷士RMDB的group by聚合操作,具有相同key的RDD成员的value会被聚合在一起,返回的RDD的结构是(key, Iterable<value>)
      reduceByKey(func, [numberTasks]) 对<key, value>结构的RDD进行聚合,对具有相同key的value调用func类进行reduce操作。func的类型必须是(V,V) = V
      sortByKey([ascending], [numberTasks]) 对<key, value> 结构的RDD进行升序或降序排列
      join(otherDataset, [numberTasks]) 对<k, v> 和 <k, w> 进行 join操作,返回 (k, <V, W>)
      外连接函数为leftOuterJoin , rightOuterJoin和 fullOuterJoin

    6. Action 操作
      Transformation操作结束之后,就该Action操作上场了,输出不再是RDD,二十回送至Driver程序

      reduce(func)对RDD成员使用func进行reduce操作,func接受两个参数,合并之后只返回一个值,reduce操作的返回结果只有一个值, 需要注意的是,func会并发执行。
      collect() 将RDD读取至Driver程序,类型是Array, 一般要求RDD不能太大
      count() 返回RDD的成员变量
      first() 返回RDD的第一个成员,等价于take()
      take(n) 返回RDD前n个成员
      saveAsTextFile(path) 将RDD转换为文本内容并保存至路径path下,可能有多个文件
      saveAsSequenceFile(path) 与saveTextFIle一样,但是以sequenceFile格式保存。
      countByKey() 仅适用于(K, V)类型,对key计数,返回(K, Int)
      foreach(func) 对RDD中的每个成员执行func,没有返回值。

    7. 应用程序提交
      程序打包(package)之后,就可以提交至集群上运行,提交任务的基本形式如下:
      ./bin/spark-submit
      --class <main-class>
      --master <master-url>
      --deploy-mode <deploy-mode>
      --conf <key>=<value>
      <application-jar>
      [application-argument]

      --class 参数指定包中的 object对象。 --master参数制定Spark集群地址,它可以是下面的任何一种:
      local[N] 表示本地模式
      spark://host:port 表示Standlone模式
      yarn
      mesos://host:port
      --deploy-mode 选项用于指定运行模式,可选的值为client或cluster。分别表示Driver程序是运行在本地还是运行在集群上。
      spark-submit提交程序时,会读取配置文件conf/spark-defaults.conf作为默认配置
      --jars 选项可以用于制定额外的依赖包,集群上的所有节点都会访问这些文件。

    相关文章

      网友评论

        本文标题:Spark编程讲解

        本文链接:https://www.haomeiwen.com/subject/haqzgttx.html