Spark编程讲解

作者: 海盗公爵 | 来源:发表于2017-03-11 17:56 被阅读65次

Spark核心编程：Spark基本工作原理与RDD
Spark编程讲解
第三篇|Spark SQL编程指南
scala基础语法
大数据面试必备知识点总结：Spark，Hadoop，kafka，
spark 学习资源整合
Spark Streaming 编程指南（2.x）
第一讲 spark简介
spark-core入门：算子，Spark任务执行流程
Apache Spark 2.2.0 中文文档 - Spark

Spark严重依赖传递函数类型的参数，即在spark中，transformation 和 action接收的参数绝大部分都是函数类型
两种建议的使用用法：
1. 一种是匿名函数，适用于小片段的代码。
2. 传递object对象中的静态方法
不建议的做法：
使用普通类的方法，必须将此类的实例一起传进去，此普通类必须继承java.io.Serializable.即普通类必须有序列化的能力。
RDD是弹性分布式数据集，实际计算是分布在各个节点上，但是RDD的计算过程都是在Driver程序中定义的。当代码从Driver中分发至各计算节点有一个过程，可以认为为4步：
1. 在Driver节点序列化代码
2. 传送至各计算节点
3. 在计算节点反序列化
4. 执行execute
在Spark中，每个Job的执行，都会经历序列化、网络传输、反序列化和运行的过程。Spark会将Job运行所以来的变量、方法（称为闭包)全部打包在一起序列化，相当于他们的一份副本。
理解以键值对为参数的操作
<key, value> 运算PairRDDFunction类，自动处理RDD元组。
Transformation操作
Transformation操作都是接收一个RDD作为输入，返回一个新的RDD。
map(func) 对源RDD中的每个元素调用func，生成新的元素，这些新的元素构成新的RDD并返回。
flatMap(func) 每个输入的RDD成员可以产生0个或者多个输出成员，所以func得返回值类型为Seq类型，但是RDD会自动将其转为单成员。
filter（func）对RDD进行过滤
mapPartitions(func) map中func的作用的是RDD中的每个元素，而mapPartitions中的func作用的对象是RDD中的一整个分区
func的类型是 Iterator<T> => Iterator<U>
mapPartitionsWithIndex9func) 与mapPartitions类似，但输入会多提供一个整数表示分区的编号，所以func得类型是（Int， Iterator<T>) => Iterator<U> 多了一个Int
sample(withReplacement, fraction, seed) 对RDD进行抽样，withReplacement为true时表示抽样之后还放回。可以多次被抽样，false表示不放回， fraction为浮点数，表示抽样比例； seed为随机数种子，比如当前时间戳）
union(otherDataset) 合并两个RDD，不去重，要求两个RDD中的元素类型一致
distinct([numberTasks]) 对原RDD进行去重操作，返回的RDD中没有重复成员
groupByKey([numberTasks]) 对<key, value>结构的RDD进行雷士RMDB的group by聚合操作，具有相同key的RDD成员的value会被聚合在一起，返回的RDD的结构是(key, Iterable<value>)
reduceByKey(func, [numberTasks]) 对<key, value>结构的RDD进行聚合，对具有相同key的value调用func类进行reduce操作。func的类型必须是（V，V) = V
sortByKey([ascending], [numberTasks]) 对<key, value> 结构的RDD进行升序或降序排列
join(otherDataset, [numberTasks]) 对<k, v> 和 <k, w> 进行 join操作，返回 (k, <V, W>)
外连接函数为leftOuterJoin , rightOuterJoin和 fullOuterJoin
Action 操作
Transformation操作结束之后，就该Action操作上场了，输出不再是RDD，二十回送至Driver程序

reduce(func)对RDD成员使用func进行reduce操作，func接受两个参数，合并之后只返回一个值，reduce操作的返回结果只有一个值，需要注意的是，func会并发执行。
collect() 将RDD读取至Driver程序，类型是Array，一般要求RDD不能太大
count() 返回RDD的成员变量
first() 返回RDD的第一个成员，等价于take()
take(n) 返回RDD前n个成员
saveAsTextFile(path) 将RDD转换为文本内容并保存至路径path下，可能有多个文件
saveAsSequenceFile(path) 与saveTextFIle一样，但是以sequenceFile格式保存。
countByKey() 仅适用于(K, V)类型，对key计数，返回(K, Int)
foreach(func) 对RDD中的每个成员执行func，没有返回值。
应用程序提交
程序打包（package）之后，就可以提交至集群上运行，提交任务的基本形式如下：
./bin/spark-submit
--class <main-class>
--master <master-url>
--deploy-mode <deploy-mode>
--conf <key>=<value>
<application-jar>
[application-argument]

--class 参数指定包中的 object对象。 --master参数制定Spark集群地址，它可以是下面的任何一种：
local[N] 表示本地模式
spark://host:port 表示Standlone模式
yarn
mesos://host:port
--deploy-mode 选项用于指定运行模式，可选的值为client或cluster。分别表示Driver程序是运行在本地还是运行在集群上。
spark-submit提交程序时，会读取配置文件conf/spark-defaults.conf作为默认配置
--jars 选项可以用于制定额外的依赖包，集群上的所有节点都会访问这些文件。