美文网首页
Spark基础系列之二--什么是RDD以及RDD的常用API

Spark基础系列之二--什么是RDD以及RDD的常用API

作者: 微生活_小阿楠 | 来源:发表于2020-04-30 01:27 被阅读0次

    传送门
    Spark实战系列之一--Spark是什么
    Spark实战系列之二--什么是RDD以及RDD的常用API
    Spark实战系列之三--RDD编程基础上
    Spark实战系列之四--RDD编程基础下
    Spark实战系列之五--键值对RDD
    Spark实战系列之六--数据读写
    Spark实战系列之七--综合案例
    Spark基础系列之八--Spark SQL是什么
    Spark基础系列之九--使用Spark SQL读写数据库
    传送门

    一、前言

    用Spark有一段时间了,但是感觉还是停留在表面,对于Spark的RDD的理解还是停留在概念上,即只知道它是个弹性分布式数据集,其他的一概不知。
    下面记录下我对RDD的新的理解。

    • spark编程都是对RDD操作,不管是集合还是其他数据,都要转换成rdd
    • Spark中的RDD就是一个不可变的分布式对象集合(所以RDD只读,只能新建不能修改),每个RDD都被分为多个分区,这些分区运行在集群中的不同节点上。
    • 用户可以使用两种方法创建RDD:读取一个外部数据集,或在驱动器程序里分发驱动器程序中的对象集合(比如 list 和 set)。创建出来之后,RDD支持两种类型的操作:转化操作(transformation)和行动操作(action)。转化操作会由一个RDD生成一个新的RDD,比如 filter() 函数。行动操作会对RDD计算出一个结果,并把结果返回到驱动器程序中,或把结果存储到外部存储系统(如HDFS)中,比如 first() 函数。
    • 如果,你对于当前的函数无法判断是转化操作还是行动操作时,你可以看该函数的返回值是什么,如果是一个RDD,那么该函数就是一个转化操作,如果是其他的数据类型,那么该函数就是一个行动操作。

    二、常用API

    1)有关转化操作的API

    filter()函数

    这个API的作用是挑选出包含 error 的内容。注意,filter()操作不会改变已有的 inputRDD 中的数据。实际上,该操作会返回一个全新的RDD。

    errorsRDD =inputRDD.filter(lambda x: "error" in x)
    
    #或者
    def hasError(line):
      return 'error' in line
    errorsRDD = inputRDD.filter(hasError)
    
    

    union()函数

    这个API的作用是计算两个RDD的并集。如果两个RDD之间有重复的元素,那么在新生成的RDD中也会包含重复的元素。

    errorsRDD = inputRDD.filter(lambda line : "error" in line)
    warningRDD = inputRDD.filter(lambda line : "warning" in line)
    badLinesRDD = errorsRDD.union(warningRDD)
    
    

    intersection()函数

    这个API的作用是计算两个RDD的交集。该API在运行时也会去掉所有重复的元素(单个RDD内的重复元素也会一起移除)。尽管intersection()与union()的概念相似,intersection()的性能却要差很多,因为它需要通过网络混洗数据来发现共有的元素。

    inputRDD = sc.parallelize([1,2,3,4,5,6,7,8,9])
    a = inputRDD.filter(lambda x : x % 2 == 0) # 2,4,6,8
    b = inputRDD.filter(lambda x : x > 5) # 6,7,8,9
    c = a.intersection(b) # 8,6
    
    

    subtract()函数

    这个API的作用是计算两个RDD的差集,即返回一个由只存在于第一个RDD中而不存在与第二个RDD中的所有元素组成的RDD。和intersection()一样,该API也需要进行数据混洗。

    inputRDD = sc.parallelize([1,2,3,4,5,6,7,8,9])
    a = inputRDD.filter(lambda x : x % 2 == 0) # 2,4,6,8
    b = inputRDD.filter(lambda x : x > 5) # 6,7,8,9
    c = a.subtract(b) # 2,4
    
    

    cartesian()函数

    这个API的作用是计算两个RDD的笛卡尔积。该API转化操作会返回所有可能的(a,b)对,其中a是源RDD中的元素,而b则是来自另一个RDD。笛卡尔积在我们希望考虑所有可能的组合的相似度时比较有用,比如计算各用户对各种产品的预期兴趣程度。我们也可以求一个RDD与其自身的笛卡尔积,这可以用于求用户相似度的应用中。不过要特别注意的是,求大规模RDD的笛卡尔积开销巨大。

    inputRDD = sc.parallelize([1,2,3,4,5,6,7,8,9])
    a=sc.parallelize(['a','b','c','d'])
    b = inputRDD.filter(lambda x : x > 5) # 6,7,8,9
    c = a.cartesian(b) 
    # output
    [('a', 6), ('a', 7), ('a', 8), ('a', 9), ('b', 6), ('b', 7), ('b', 8), ('b', 9), ('c', 6), ('c', 7), ('c', 8), ('c', 9), ('d', 6), ('d', 7), ('d', 8), ('d', 9)]
    
    

    map()函数

    这个API的作用是遍历inputRDD中所有的元素,然后返回的新的RDD中的元素是原来的两倍。

    doubleRDD = inputRDD.map(lambda x: x * 2)
    
    

    flatMap()函数

    这个API的作用是被应用到输入inputRDD中每个元素上,不过返回的不是一个一个元素,而是一个返回值序列的迭代器。输出的RDD倒不是由迭代器组成的。我们得到的是一个包含各个迭代器可访问的所有元素的RDD。

    inputRDD = sc.parallelize(['i love you', 'hello world'])
    outputRDD = inputRDD.flatMap(lambda x: x.split(' '))
    print outputRDD.count() # 5
    
    

    distinct()函数

    这个API的作用是来生成一个只包含不同元素的新RDD。不过由于该操作需要对所有数据通过网络进行混洗(shuffle),所有这个操作非常消耗时间。

    inputRDD = sc.parallelize([2,4,3,1,2,3,3,2,1,3,4,2,3,1,4])
    distinctRDD = inputRDD.distinct()
    dictinctRDD.collect()   # 1,2,3,4
    
    

    sample()函数

    这个API的作用是来随机采集RDD中的数据,第一个参数表示RDD中的元素是否可以被重复采集,如果True,那么表示可以重复采集。第二个参数是元素是否被采集的概率,取值范围必须是 [0,1]

    inputRDD = sc.parallelize([1,2,3,4,5,6,7,8,9,0])
    sampleRDD = inputRDD.sample(False, 0.5)
    # 2,3,4,9
    sampleRDD = inputRDD.sample(True, 0.5)
    # 1,2,2,6,6,6
    
    

    reduceByKey()函数

    这个API的作用是来合并具有相同键的值。

    inputRDD = sc.parallelize([(1,2),(3,4),(3,6)])
    outputRDD = inputRDD.reduceByKey(lambda x,y: x+y)
    # output
    [(1, 2), (3, 10)]
    
    

    groupByKey()函数

    这个API的作用是对具有相同键的值进行分组。

    inputRDD = sc.parallelize([(1,2),(3,4),(3,6)])
    outputRDD = inputRDD.groupByKey(lambda x,y: x+y)
    # {(1, [2]), (3,[4,6])}
    for (i,j) in outputRDD.collect():
      for item in j:
        print item
    # output item
    <pyspark.resultiterable.ResultIterable object at 0x110a7ec90>
    2
    <pyspark.resultiterable.ResultIterable object at 0x110a7ed50>
    4
    6
    
    

    mapValues()函数

    这个API的作用是对具有相同键的值进行分组。

    inputRDD = sc.parallelize([(1,2),(3,4),(3,6)])
    outputRDD = inputRDD.mapValues(lambda x: x+1)
    # {(1, [2]), (3,[4,6])}
    for (i,j) in outputRDD.collect():
      for item in j:
        print item
    # output item
    <pyspark.resultiterable.ResultIterable object at 0x110a7ec90>
    2
    <pyspark.resultiterable.ResultIterable object at 0x110a7ed50>
    4
    6
    
    

    keys()函数

    这个API的作用是返回一个仅包含键的RDD。

    inputRDD = sc.parallelize([(1,2),(3,4),(3,6)])
    outputRDD = inputRDD.keys()
    # output
    [1,3,3]
    
    

    values()函数

    这个API的作用是返回一个仅包含值的RDD。

    inputRDD = sc.parallelize([(1,2),(3,4),(3,6)])
    outputRDD = inputRDD.values()
    # output
    [2,4,6]
    
    

    sortByKey()函数

    这个API的作用是返回一个根据键排序的RDD。

    inputRDD = sc.parallelize([(11,2),(13,4),(3,6)])
    outputRDD = inputRDD.sortByKey()
    # output
    [(3,6),(11,2),(13,4)]
    
    

    combineByKey(createCombiner, mergeValue, mergeCombiners, partitioner)函数

    要理解combineByKey(),要先理解它在处理数据时是如何处理每个元素的。由于combineByKey()会遍历分区中的所有的元素,因此每个元素的键要么还没有遇到过,要么就和之前的某个元素的键相同。
    如果这是一个新的元素,combineByKey()会使用一个叫作createCombiner()的函数来创建那个键对应的累加器的初始值。需要注意的是,这一过程会在每个分区中第一次出现各个键时发生,而不是在整个RDD中第一次出现一个键时发生。
    如果这是一个在处理当前分区之前已经遇到的值,它会使用mergeValue()方法将该键的累加器对应的当前值与这个新的值进行合并。
    由于每个分区都是独立处理的,因此对于同一个键可以有多个累加器,如果有两个或者更多的分区都有对应同一个键的累加器,就需要使用用户提供的mergeCombiners()方法将各个分区的结果进行合并。

    inputRDD = sc.parallelize([(1,2),(3,4),(3,6)])
    outputRDD = inputRDD.combineByKey(
      (lambda x: (x, 1)),
      (lambda x, y: (x[0] + y, x[1] + 1)),
      (lambda x, y: (x[0] + y[0], x[1] + y[1]))
    )
    # output
    {[(1, (2, 1)), (3, (10, 2))]}
    
    

    2)有关行动操作的API

    top()函数

    这个API的作用是返回inputRDD最前面的K个元素,返回的数据类型是一个list,长度是K。

    outputdata = inputRDD.top(10)
    for line in outputdata:
      print line
    
    

    take()函数

    这个API的作用是返回inputRDD中的K个元素,返回的数据类型是一个list,长度是K。

    outputdata = inputRDD.take(10)
    for line in outputdata:
      print line 
    
    

    first()函数

    这个API的作用是返回inputRDD最前面的元素,返回的数据类型是一个字符串,编码是Unicode编码。

    inputRDD.first()
    
    

    collect()函数

    这个API的作用是返回inputRDD中所有的元素,返回的数据类型是一个list。注意,这个API只能在小数据上面使用,如果数据量太大,非常消耗时间和内存。

    outputdata = inputRDD.collect()
    for line in outputdata:
      print line
    
    

    count()函数

    这个API的作用是返回inputRDD中元素的个数。

    len = inputRDD.count()
    print len
    
    

    reduce()函数

    这个API的作用是接收一个函数作为参数,这个函数要操作两个RDD的元素类型的数据并返回一个同样类型的新元素。

    inputRDD = sc.parallelize([1,2,3,4,5,6,7,8,9])
    output = inputRDD.reduce(lambda x,y : x+y)
    # output
    45
    
    

    takeSample(withReplacement, num, seed = None)函数

    这个API的作用是返回一个指定长度的子集。如果 withReplacement 是True,那么返回的元素可以是重复采集的。

    inputRDD = sc.parallelize(range(10))
    output = inputRDD.takeSample(True, 20)
    # output
    [8, 5, 5, 7, 7, 6, 3, 1, 0, 7, 5, 5, 4, 3, 3, 4, 8, 2, 7, 4]
    output = inputRDD.takeSample(False, 5)
    # output
    [2, 9, 7, 8, 0]
    
    

    countByValue()函数

    这个API的作用是计算各元素在RDD中出现的次数。

    inputRDD = sc.parallelize(['a','b','c','d'])
    output = inputRDD.countByValue()
    # output
    {'a': 1, 'c': 1, 'b': 1, 'd': 1}
    
    

    三、从Hive中读取数据

    from pyspark.sql import HiveContext
    
    hiveCtx = HiveContext(sc)
    rows = hiveCtx.sql("select name, age from users")
    firstRow = rows.first()
    print firstRow.name
    
    

    相关文章

      网友评论

          本文标题:Spark基础系列之二--什么是RDD以及RDD的常用API

          本文链接:https://www.haomeiwen.com/subject/kukgwhtx.html