美文网首页
distinct([numTasks]) / distinct(

distinct([numTasks]) / distinct(

作者: yayooo | 来源:发表于2019-07-30 20:30 被阅读0次
def distinct(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = withScope {
    map(x => (x, null)).reduceByKey((x, y) => x, numPartitions).map(_._1)
  }

一个分区就是也一个task

    val conf: SparkConf = new SparkConf().setAppName("Trans").setMaster("local[*]")
    val sc = new SparkContext(conf)

    val numRDD: RDD[Int] = sc.makeRDD(List(1,2,1,1,1,1,2,2,23,3,4,5,6,6,7))
    val distinctRDD: RDD[Int] = numRDD.distinct()
    distinctRDD.collect().foreach(println)

4
1
5
6
2
23
3
7

相关文章

  • distinct([numTasks]) / distinct(

    一个分区就是也一个task 415622337

  • distinct

    distinct只能返回它的目标字段,而无法返回其它字段,有如下记录表: 当只对username去重时,可以过滤掉...

  • DISTINCT

    1. distinct必须写在所有查询字段的前面 2.作用于单列 3.作用与多列 DISTINCT只能放在开头,并...

  • DISTINCT

  • distinct

    如果distinct()正在处理有序流,那么对于重复元素,将保留以遭遇顺序首先出现的元素,并且以这种方式选择不同元...

  • Codility每周一课:L6 Sorting(P6.1)

    P6.1 Distinct Compute number of distinct values in an arr...

  • Django ORM去重

    distinct()具有去重功能是没有必要怀疑的,distinct()函数有一个隐藏特性,当使用distinct(...

  • sql 函数 单词整理

    distinct —— 去重函数 select distinct depart from teacher; b...

  • Spark Aggregations execution

    一、Distinct aggregation 算法 包含 distinct 关键字的 aggregation 由 ...

  • Hive Distinct的实现原理

    Distinct的实现原理 select dealid, count(distinct uid) num from...

网友评论

      本文标题:distinct([numTasks]) / distinct(

      本文链接:https://www.haomeiwen.com/subject/emvgrctx.html