美文网首页
2019-10-20 n份数据同概率被选中(蓄水池抽样)

2019-10-20 n份数据同概率被选中(蓄水池抽样)

作者: 路人乙yh | 来源:发表于2019-10-20 16:30 被阅读0次

    1.等概率选择 1 个

    一开始选择第一个数据作为候选数据,以概率为1/2拿第二个数据替换当前候选,以1/3拿第三个数据替换当前候选,依次类推。

    这样第 m 个数据为最终选中数据的概率 = 第m个数据被选中 * 第 m+1、m+2 ...n个数据不被选择

    p = \frac{1}{m} *(\frac{m}{m+1} *\frac{m+1}{m+2} * ...* \frac{n-1}{n})

    2.等概率选择 k 个

    一开始选择前k个数据作为候选数据,以\frac{k}{m}的概率选择后面的数据(也就是从k+1开始的数据)。

    这样第m个数据被选择的概率
    = 第m个数据被选中 * (后面的数据没有被选中+后面的数据被选中了但是没有替换掉第m个数据)
    = 第m个数据被选中 * {(第m+1个没中+第m+1中了*没有替换掉第m个)*(第m+2个没中+第m+2中了*没有替换掉第m个* ... *(第n个没中+第n中了*没有替换掉第m个)}
    公式表达:
    p(m) = \frac{k}{m}*\{(\frac{m+1-k}{m+1}+\frac{k}{m+1}*\frac{k-1}{k}) *(\frac{m+2-k}{m+2}+\frac{k}{m+2}*\frac{k-1}{k}) * ... * (\frac{n-k}{n}+\frac{k}{n}*\frac{k-1}{k})\} \\ =\frac{k}{m}*\frac{m}{n} \\ =\frac{k}{n}

    参考文章:https://blog.csdn.net/jingshuiliushen_zj/article/details/83584567

    相关文章

      网友评论

          本文标题:2019-10-20 n份数据同概率被选中(蓄水池抽样)

          本文链接:https://www.haomeiwen.com/subject/prkamctx.html