美文网首页
spark RDD学习

spark RDD学习

作者: _Kantin | 来源:发表于2018-04-20 15:06 被阅读22次

数据集合parallelize

image.png
image.png

外部数据testfile

image.png
image.png

map用于操作元素

image.png
image.png

filter用于过滤元素

image.png
image.png

flatMap用于映射元素

image.png
image.png

mapPartions用于分区数据的整体处理

image.png
image.png

sample用于取样操作

image.png

union用于两个数据集合并

image.png

intersection用于返回两个集合的交际

image.png

distinct用于两个数据集的去重

image.png

groupByKey对数据进行分组

  • groupByKey([numTasks])对数据进行分组,返回一个(k,seq[V]),默认是使用8个并行任务进行分组,可以设置numTasks的数量。


    image.png

reduceByKey数组分组聚合操作

image.png

combineByKey是对RDD中的数据集按照key进行聚合

image.png
image.png

sortByKey对key进行排序

image.png

join对两个集合进行连接操作,生成(k,(v,w))

cogroup聚合两个集合按照key生成[k,Seq[V],Seq[W]]

image.png
image.png

cartesian对两个集合进行笛卡尔积

subtract对两个数据集进行减法

image.png image.png

zip进两个序列进行压缩成对的操作

image.png

coalesce(numPartitions)对RDD进行重分区,不需shuffle,而repartition(numPartitions)则需要进行需shuffle

reduce对数据进行聚合操作,区别于bykey的只对value进行操作

image.png

takeSample返回随机num个元素的数组

image.png

takeOrdered(n,[ordering])返回随机的n个元素的数组

countBykey

image.png

相关文章

网友评论

      本文标题:spark RDD学习

      本文链接:https://www.haomeiwen.com/subject/qgzakftx.html