美文网首页
spark实现加权采样(不放回)

spark实现加权采样(不放回)

作者: light01 | 来源:发表于2017-11-11 11:52 被阅读0次

加权采样就是按照选定的权重列,根据权重值采样,如权重值是1.2和1.0;则value=1.2所属样本的被采样的概率就大一些。权重列必须为double或int类型.

算法:计算权重总和sum,然后在0到sum之间随机选择一个数R,之后遍历整个集合,统计遍历的项的权重之和,如果大于等于R,就停止遍历,选择遇到的项。

思路:

1.首先按照采样比例生成一堆随机数,并且升序排序

2.对原始数据进行排序(为什么要进行排序呢?主要是为了让权重大的样本趋势更明显)

3.不断的从原始数据中取值和随机数做比较取得采样结果

代码:

总结:在一次遍历数据的时候就将采样的数据抽取出来,速度和性能都是比较好的.

相关文章

  • spark实现加权采样(不放回)

    加权采样就是按照选定的权重列,根据权重值采样,如权重值是1.2和1.0;则value=1.2所属样本的被采样的概率...

  • 15. 随机森林

    Bootstraping: 有放回的采样 Bagging: 无放回采样n个样本一起建立分类器 随机森林 随机森林:...

  • Python 使用和高性能技巧总结

    1. 易混淆操作 本节对一些 Python 易混淆的操作进行对比。 1.1 有放回随机采样和无放回随机采样 imp...

  • 干货!20个Python使用小技巧

    1. 易混淆操作 本节对一些 Python 易混淆的操作进行对比。 1.1 有放回随机采样和无放回随机采样 imp...

  • R常用的基本函数

    基本数据处理 缺失数据is.na() # 判断数据是否存在NA 处理重复数据 创建序列 随机采样 不放回采样 有放...

  • 推荐系统22:加权采样算法

    今天来讲一个非常轻松的话题,这个话题看似和推荐系统没什么关系,但肯定有用,只是在别的推荐系统相关话题里都没人会提。...

  • 推荐系统 --对数据不平衡的解决

    集成下采样/欠采样 EasyEnsemble 采用不放回的数据抽取方式抽取多数类别样本数据,然后将抽取出来的数据和...

  • Arxiv网络科学论文摘要4篇(2019-01-17)

    州际战争的频率和严重程度; 超越均匀反向采样:一种用于预防错误信息的混合采样技术; 基于局部边度的加权标签传播算法...

  • 😆 机器学习采样方法大全

    ? Index 数据采样的原因 常见的采样算法 失衡样本的采样 采样的Python实现 ? 数据采样的原因 其实我...

  • 悬浮窗

    添加权限 实现 窗口类型

网友评论

      本文标题:spark实现加权采样(不放回)

      本文链接:https://www.haomeiwen.com/subject/xilsmxtx.html