美文网首页
概率 - 蓄水池抽样

概率 - 蓄水池抽样

作者: GOGOYAO | 来源:发表于2019-08-03 12:08 被阅读0次

参考

蓄水池抽样——《编程珠玑》读书笔记

问题描述

如何随机从n个对象中选择一个对象,这n个对象是按序排列的,但是在此之前你是不知道n的值的。

问题扩展下:如果是选择 n 个对象呢?

分析

如果我们知道n的值,那么问题就可以简单的用一个大随机数rand()%n得到一个确切的随机位置,那么该位置的对象就是所求的对象,选中的概率是1/n。

但现在我们并不知道n的值,这个问题便抽象为蓄水池抽样问题,即从一个包含n个对象的列表S中随机选取k个对象,n为一个非常大或者不知道的值。通常情况下,n是一个非常大的值,大到无法一次性把所有列表S中的对象都放到内存中。我们这个问题是蓄水池抽样问题的一个特例,即k=1。

我们总是选择第一个对象,以1/2的概率选择第二个,以1/3的概率选择第三个,以此类推,以1/m的概率选择第m个对象。当该过程结束时,每一个对象具有相同的选中概率,即1/n,证明如下。
证明:第m个对象最终被选中的概率P=选择m的概率*其后面所有对象不被选择的概率,即

证明过程

对应蓄水池抽样问题,可以类似的思路解决。先把读到的前k个对象放入“水库”,对于第k+1个对象开始,以k/(k+1)的概率选择该对象,以k/(k+2)的概率选择第k+2个对象,以此类推,以k/m的概率选择第m个对象(m>k)。如果m被选中,则随机替换水库中的一个对象。最终每个对象被选中的概率均为k/n,证明如下。

证明:第m个对象被选中的概率=选择m的概率(其后元素不被选择的概率+其后元素被选择的概率不替换第m个对象的概率),即

证明过程

相关文章

  • 概率 - 蓄水池抽样

    参考 蓄水池抽样——《编程珠玑》读书笔记 问题描述 如何随机从n个对象中选择一个对象,这n个对象是按序排列的,但是...

  • 蓄水池抽样算法(Reservoir Sampling)

    蓄水池抽样算法(Reservoir Sampling) 许多年以后,当听说蓄水池抽样算法时,邱simple将会想起...

  • 确定抽样方法和收集资料

    抽样方法 概率抽样 单纯随机抽样、系统抽样、分层抽样、整群抽样。 非概率抽样 便利抽样(用的比较多)、主观抽样、配...

  • 统计

    抽样采集数据:概率抽样和非概率抽样概率抽样也称为随机抽样,是指遵守随机原则进行的抽样,总体中每个单位都有一定的机会...

  • 常用统计量 的抽样分配

    样本比例 的抽样概率分布 样本方差 的抽样概率分布

  • 蓄水池抽样

    蓄水池抽样,首先有它的应用和它的神奇之处,其次这个也是机器学习领域面试的热门试题。 问题一(引子):流式数据(St...

  • 成为数据分析师要掌握的统计学知识(基础版)

    阅读路线: 概率介绍 离散型概率分布和连续型概率分布 抽样和抽样分布 区间估计 假设检验 概率介绍 概率是指的对于...

  • 2019-08-04丨《市场调查与预测》丨抽样方法

    随机抽样 随机抽样要求严格遵循概率原则,每个抽样单元被抽中的概率相同,并且可以重现。随机抽样常常用于总体个数较少时...

  • 2021-02-01 蓄水池抽样算法(Reservoir Sam

    蓄水池抽样算法(Reservoir Sampling)[https://www.jianshu.com/p/7a9...

  • 2019-03-06

    三月第一周,预告:蓄水池抽样和spark并行读取

网友评论

      本文标题:概率 - 蓄水池抽样

      本文链接:https://www.haomeiwen.com/subject/yohjdctx.html