-
Spark严重依赖传递函数类型的参数,即 在spark中,transformation 和 action接收的参数绝大部分都是函数类型
两种建议的使用用法:
1. 一种是匿名函数,适用于小片段的代码。
2. 传递object对象中的静态方法
不建议的做法:
使用普通类的方法,必须将此类的实例一起传进去,此普通类必须继承java.io.Serializable.即普通类必须有序列化的能力。 -
RDD是弹性分布式数据集,实际计算是分布在各个节点上,但是RDD的计算过程都是在Driver程序中定义的。当代码从Driver中分发至各计算节点有一个过程,可以认为为4步:
- 在Driver节点序列化代码
- 传送至各计算节点
- 在计算节点反序列化
- 执行execute
-
在Spark中,每个Job的执行,都会经历序列化、网络传输、反序列化和运行的过程。Spark会将Job运行所以来的变量、方法(称为闭包)全部打包在一起序列化,相当于他们的一份副本。
-
理解以键值对为参数的操作
<key, value> 运算PairRDDFunction类,自动处理RDD元组。 -
Transformation操作
Transformation操作都是接收一个RDD作为输入,返回一个新的RDD。
map(func) 对源RDD中的每个元素调用func,生成新的元素,这些新的元素构成新的RDD并返回。
flatMap(func) 每个输入的RDD成员可以产生0个或者多个输出成员,所以func得返回值类型为Seq类型,但是RDD会自动将其转为单成员。
filter(func)对RDD进行过滤
mapPartitions(func) map中func的作用的是RDD中的每个元素,而mapPartitions中的func作用的对象是RDD中的一整个分区
func的类型是 Iterator<T> => Iterator<U>
mapPartitionsWithIndex9func) 与mapPartitions类似,但输入会多提供一个整数表示分区的编号,所以func得类型是(Int, Iterator<T>) => Iterator<U> 多了一个Int
sample(withReplacement, fraction, seed) 对RDD进行抽样,withReplacement为true时表示抽样之后还放回。可以多次被抽样,false表示不放回, fraction为浮点数,表示抽样比例; seed为随机数种子,比如当前时间戳)
union(otherDataset) 合并两个RDD,不去重, 要求两个RDD中的元素类型一致
distinct([numberTasks]) 对原RDD进行去重操作,返回的RDD中没有重复成员
groupByKey([numberTasks]) 对<key, value>结构的RDD进行雷士RMDB的group by聚合操作,具有相同key的RDD成员的value会被聚合在一起,返回的RDD的结构是(key, Iterable<value>)
reduceByKey(func, [numberTasks]) 对<key, value>结构的RDD进行聚合,对具有相同key的value调用func类进行reduce操作。func的类型必须是(V,V) = V
sortByKey([ascending], [numberTasks]) 对<key, value> 结构的RDD进行升序或降序排列
join(otherDataset, [numberTasks]) 对<k, v> 和 <k, w> 进行 join操作,返回 (k, <V, W>)
外连接函数为leftOuterJoin , rightOuterJoin和 fullOuterJoin -
Action 操作
Transformation操作结束之后,就该Action操作上场了,输出不再是RDD,二十回送至Driver程序reduce(func)对RDD成员使用func进行reduce操作,func接受两个参数,合并之后只返回一个值,reduce操作的返回结果只有一个值, 需要注意的是,func会并发执行。
collect() 将RDD读取至Driver程序,类型是Array, 一般要求RDD不能太大
count() 返回RDD的成员变量
first() 返回RDD的第一个成员,等价于take()
take(n) 返回RDD前n个成员
saveAsTextFile(path) 将RDD转换为文本内容并保存至路径path下,可能有多个文件
saveAsSequenceFile(path) 与saveTextFIle一样,但是以sequenceFile格式保存。
countByKey() 仅适用于(K, V)类型,对key计数,返回(K, Int)
foreach(func) 对RDD中的每个成员执行func,没有返回值。 -
应用程序提交
程序打包(package)之后,就可以提交至集群上运行,提交任务的基本形式如下:
./bin/spark-submit
--class <main-class>
--master <master-url>
--deploy-mode <deploy-mode>
--conf <key>=<value>
<application-jar>
[application-argument]--class 参数指定包中的 object对象。 --master参数制定Spark集群地址,它可以是下面的任何一种:
local[N] 表示本地模式
spark://host:port 表示Standlone模式
yarn
mesos://host:port
--deploy-mode 选项用于指定运行模式,可选的值为client或cluster。分别表示Driver程序是运行在本地还是运行在集群上。
spark-submit提交程序时,会读取配置文件conf/spark-defaults.conf作为默认配置
--jars 选项可以用于制定额外的依赖包,集群上的所有节点都会访问这些文件。
网友评论