美文网首页
RDD几个常用的键值对

RDD几个常用的键值对

作者: 起个什么呢称呢 | 来源:发表于2017-05-16 15:42 被阅读119次

键值对的创建方式:

1.从文件加载:

val line=sc.textFile("path")

2.通过并行数据集合(数组)创建RDD

val list=list("a","b","c")

val rdd=sc.paralelize(list)




常用的键值对转换操作

常用的键值对转换操作包括reduceByKey() ,groupByKey(),sortByKey(),join(),cogroup()

reduceByKey(func):

=====================================================

使函数func 合并具有相同键的值比如reduceBykey((a,b)=>a+b),有四个键值对("spark",1)、("spark",2)、("hadoop",3)和("hadoop",5),对具有相同key的键值对进行合并后的结果就是:("spark",3)、("hadoop",8)。

从上面结果可以看出,(a,b)=>a+b这个Lamda 表达式中a和b都是指value,比如,对于两个具有相同key的键值对("spark",1)、("spark",2),a就是1,b就是2。

groupByKey():

==========================================================

groupByKey()的功能是,对具有相同键的值进行分组。比如,对四个键值对("spark",1)、("spark",2)、("hadoop",3)和("hadoop",5),采用groupByKey()后得到的结果是:("spark",(1,2))和("hadoop",(3,5))。

groupbykey

keys:

========================================================

keys只会把键值对RDD中的key返回形成一个新的RDD。比如,对四个键值对("spark",1)、("spark",2)、("hadoop",3)和("hadoop",5)构成的RDD,采用keys后得到的结果是一个RDD[Int],内容是{"spark","spark","hadoop","hadoop"}。

keys

values:

=========================================================

values只会把键值对RDD中的value返回形成一个新的RDD。比如,对四个键值对("spark",1)、("spark",2)、("hadoop",3)和("hadoop",5)构成的RDD,采用keys后得到的结果是一个RDD[Int],内容是{1,2,3,5}。

values

sortByKey():

=========================================================

sortByKey()的功能是返回一个根据键排序的RDD。

paixun

mapValues(func):

======================================================

们只想对键值对RDD的value部分进行处理,而不是同时对key和value进行处理。对于这种情形,Spark提供了mapValues(func)

它的功能是,对键值对RDD中的每个value都应用一个函数,但是,key不会发生变化。比如,对四个键值对("spark",1)、("spark",2)、("hadoop",3)和("hadoop",5)构成的pairRDD,如果执行pairRDD.mapValues(x=>x+1),就会得到一个新的键值对RDD,它包含下面四个键值对("spark",2)、("spark",3)、("hadoop",4)和("hadoop",6)。

join:

=========================================================

join(连接)操作是键值对常用的操作。“连接”(join)这个概念来自于关系数据库领域,因此,join的类型也和关系数据库中的join一样,包括内连接(join)、左外连接(leftOuterJoin)、右外连接(rightOuterJoin)等。最常用的情形是内连接,所以,join就表示内连接。对于内连接,对于给定的两个输入数据集(K,V1)和(K,V2),只有在两个数据集中都存在的key才会被输出,最终得到一个(K,(V1,V2))类型的数据集。

比如,pairRDD1是一个键值对集合{("spark",1)、("spark",2)、("hadoop",3)和("hadoop",5)},pairRDD2是一个键值对集合{("spark","fast")},那么,pairRDD1.join(pairRDD2)的结果就是一个新的RDD,这个新的RDD是键值对集合{("spark",1,"fast"),("spark",2,"fast")}。

join

相关文章

  • RDD几个常用的键值对

    键值对的创建方式: 1.从文件加载: val line=sc.textFile("path") 2.通过并行数据集...

  • 3RDD创建

    1键值对rdd的创建 2常用的RDD键值对转换操作 常用的键值对转换操作有reduceByKey(func),gr...

  • RDD操作(二)(Python)

    键值对 RDD 是 Spark 中许多操作所需要的常见数据类型。键值对 RDD 通常用来进行聚合计算。我们一般要先...

  • 写给小白的pySpark入门

    1. 创建键值对RDD ( Pair RDD) RDD中可以包含任何类型的对象。其中,键值对是一种比较常见的RDD...

  • 【2019-06-23】键值对操作

    键值对RDD是spark中许多操作所需要的常见数据类型。键值对RDD通常用来进行聚合计算,一般要先通过一些初始的E...

  • 6.spark core之键值对操作

      键值对RDD(pair RDD)是spark中许多操作所需要的常见数据类型,通常用来进行聚合计算。 创建Pai...

  • RDD操作—— 键值对RDD(Pair RDD)

    键值对概述 “键值对”是一种比较常见的RDD元素类型,分组和聚合操作中经常会用到。Spark操作中经常会用到“键值...

  • spark 基本概念

    2019-02-27 Pair RDD键值RDD对一个普通RDD可以通过map函数转换成pair RDDpair RDD

  • spark—键值对操作

    1.JavaPairRDD背景键值对 RDD 通常用来进行聚合计算。先通过一些初始 ETL(抽取、转 化、装载)操...

  • SparkRDD的键值对操作

    pairRDD Spark 为包含键值对类型的 RDD 提供了一些专有的操作。这些 RDD 被称为pair RDD...

网友评论

      本文标题:RDD几个常用的键值对

      本文链接:https://www.haomeiwen.com/subject/kdelxxtx.html