数据集合parallelize


外部数据testfile


map用于操作元素


filter用于过滤元素


flatMap用于映射元素


mapPartions用于分区数据的整体处理


sample用于取样操作

union用于两个数据集合并

intersection用于返回两个集合的交际

distinct用于两个数据集的去重

groupByKey对数据进行分组
-
groupByKey([numTasks])对数据进行分组,返回一个(k,seq[V]),默认是使用8个并行任务进行分组,可以设置numTasks的数量。
image.png
reduceByKey数组分组聚合操作

combineByKey是对RDD中的数据集按照key进行聚合


sortByKey对key进行排序

join对两个集合进行连接操作,生成(k,(v,w))
cogroup聚合两个集合按照key生成[k,Seq[V],Seq[W]]


cartesian对两个集合进行笛卡尔积
subtract对两个数据集进行减法


zip进两个序列进行压缩成对的操作

coalesce(numPartitions)对RDD进行重分区,不需shuffle,而repartition(numPartitions)则需要进行需shuffle
reduce对数据进行聚合操作,区别于bykey的只对value进行操作

takeSample返回随机num个元素的数组

takeOrdered(n,[ordering])返回随机的n个元素的数组
countBykey

网友评论