美文网首页
2020-04-27 spark随机采样

2020-04-27 spark随机采样

作者: 破阵子沙场秋点兵 | 来源:发表于2020-04-27 13:52 被阅读0次

在使用spark.sql(sql)获取dataframe之后使用map函数进行随机负采样时,如果containLabels的类型是可变的Set,那么采样个数会出现随机性,并不受negNum参数限制,而改为ArrayBuffer之后便没有这样的问题。具体原因不知。

import scala.collection.mutable.{ArrayBuffer, Set => MSet}
private def calcNegLabels(containLabels: ArrayBuffer[Long], negNum: Int, itemSkuArr: Array[Long]): Set[Long] = {
    val totalLen = containLabels.length + negNum
    val negLabels = MSet[Long]()
    while (containLabels.length < totalLen) {
      val random = Random.nextInt(itemSkuArr.length)
      if (!containLabels.contains(itemSkuArr(random))) {
        containLabels.+=(itemSkuArr(random))
        negLabels.+=(itemSkuArr(random))
      }
    }
    negLabels.toSet
  }

相关文章

  • 2020-04-27 spark随机采样

    在使用spark.sql(sql)获取dataframe之后使用map函数进行随机负采样时,如果containLa...

  • 【SQL】抽样

    随机采样 分层采样 hash 版 非hash 版

  • 15. 随机森林

    Bootstraping: 有放回的采样 Bagging: 无放回采样n个样本一起建立分类器 随机森林 随机森林:...

  • SMOTE过采样

    SMOTE(合成少数类过采样),是基于随机过采样方法的一种改机方案。随机过采样通过简单复制样本的方式来增加少数样本...

  • hive随机采样

    数据量大的时候,对数据进行采样,然后再做模型分析。作为数据仓库的必备品hive,我们如何对其进行采样呢? 假设有一...

  • 点云采样

    原文链接 点云采样分类 点云采样的方法有很多种,常见的有均匀采样,几何采样,随机采样,格点采样等。下面介绍一些常见...

  • 概率简要学习记录

    随机数问题 构造均匀的随机数发生器 要等概率才可以丢掉 不均匀的随机数产生器 采样问题 水库采样利用数组和随机数取...

  • 机器学习intuitions

    一、随机森林随机森林先对数据集做采样,这个过程中很多可能会出现重复采样。随机森林就是多个决策树的组合,但每棵树采用...

  • 采样的作用

    定义:采样本质上是对随机现象的模拟,根据给定的概率分布,来模拟产生一个对应的随机事件。采样可以让人们对随机事件及其...

  • Python 使用和高性能技巧总结

    1. 易混淆操作 本节对一些 Python 易混淆的操作进行对比。 1.1 有放回随机采样和无放回随机采样 imp...

网友评论

      本文标题:2020-04-27 spark随机采样

      本文链接:https://www.haomeiwen.com/subject/zepywhtx.html