美文网首页那些机器学习的故事理科生的果壳有意思的文章
抛硬币十次正面,第十一次硬币会立起来呢。

抛硬币十次正面,第十一次硬币会立起来呢。

作者: algorithmdog | 来源:发表于2016-05-14 00:31 被阅读405次

    本文博客地址
    http://www.algorithmdog.com/ten-positive-eleven

    本文在公众号 AlgorithmDog 地址
    http://mp.weixin.qq.com/s?__biz=MzI2MDIxMjQyMg==&mid=2653584065&idx=1&sn=31a922614b405be59882e689f9e341cb#rd

    我们抛硬币,前十次都是正面,那么第十一次正面的概率是多少?

    看到上图,估计大伙已经知道我在吐槽啥了。一种答案是50%,另一种答案是$0.5^{11}$。

    1. 联合概率和条件概率


    抛硬币是一个典型的伯努利过程。硬币正面朝上的概率用 $\theta$ 表示,抛的次数用 n 表示,正面的次数用 t 表示,$s_{i}=1$ 表示第 i 次硬币正面。

    第十一次为正面的概率是多少?这个问题首先是一道语文题。我们得搞清楚,当我们问第十一次为正面的概率是多少,我们到底问了啥。回答 0.5 的人,认为问题是条件概率 $p(\theta)$ 或者$p(\theta|T=10) $(和前面结果独立)。回答 0.5 的人,认为问题是联合概率 $p(\theta,T=10)$。

    明确条件概率和联合概率概念之后,“第十一次正面的概率是多少(在前面十次正面的情况下)?” 是在问条件概率,而不是问联合概率。因此这不是一个数学题,而是一个语文题。

    2.贝叶斯


    在生活场景下,回答第十一次正面的概率 0.5 是 OK 的。因此在生活中,我们一般认为硬币是无偏的。不过贝叶斯学派的童鞋们有不同的话说。如果抛硬币正面的概率 $\theta = 0.5$,那么前面十次都是正面的概率就是 $p(T=10|\theta) = 0.5^{10} = 1/1024$。不太可能吧,那么小的概率都被我们碰到。因此贝叶斯的童鞋们认为,这个硬币倾向于正面。

    在抛硬币问题上,贝叶斯公式如下所示。

    按照这个公式,贝叶斯关心概率的概率 $p(\theta|T)$。计算这个概率的概率之前,我们需要先验概率 $p(\theta)$。对于抛硬币这个伯努利过程,一般用 Beta 分布做先验概率,Beta 分布的公式如下所示。

    其中 $\alpha$ 和 $\beta$ 是 Beta 分布的两个参数。计算后验概率

    Rendered by QuickLaTeX.com

    $p(\theta|T=10) = Beta(\theta;\alpha+10,\beta)$ 的概率密度分布示意图如下所示。

    那么按照贝叶斯方法,第十一次正面的概率$\theta$ 是多少?不好意思,贝叶斯方法并不能计算出这个,但贝叶斯方法能够计算后验概率 $p(\theta|T=10)$ 。根据后验概率,我们能计算 $\theta$ 以一定的概率处于一定范围。

    1. 区间估计


    其实我们还可以用区间估计来解决这个问题。针对参数$\theta$, 区间估计算出一个区间 [L(X),U(X)],其中 L(X) 和 U(X) 是两个统计量。随机区间 [L(X),U(X)] 覆盖参数 $\theta$ 的概率被称为覆盖概率,表示为 $p(\theta \in [L(X),U(X)]|\theta)$。覆盖概率的最小值被称为置信度,表示为$inf_{\theta} p(\theta \in [L(X),U(X)]|\theta)$。对于置信度为 $1-\alpha$ 的区间估计,我们有

    其中 $p(\theta) $ 是未知的先验概率。相比贝叶斯的做法,区间估计不需要具体的先验概率。按照上面的公式,至少$1-\alpha$ 的可能性,参数 $\theta$ 处于区间 [L(X),U(X)] 之间。

    虽然伯努利过程简单,但相关的区间估计都有缺陷。相关的区间估计包括 Wald interval、Wilson score interval、Jeffreys interval、Clopper-Pearson interval 和 Agresti-Coull Interval 等等。我们用适用于极端情况的 Wilson score interval 做例子。Wilson score interval 的计算公式如下所示。

    我们用模拟方法计算 Wilson score interval 的覆盖概率,其中参数设置为 $1-\alpha=0.05$,$n=5,10,100$,结果如下图所示。可以发现覆盖概率有时会低于置信度 $1-\alpha=0.05$,说明 Wilson score interval 存在缺陷。这时我们不能说: 至少$1-\alpha$ 的可能性,参数 $\theta$ 处于 Wilson score interval。不过我们也发现,覆盖概率一直保持较高的水平。我们很有信心 $\theta$ 属于 Wilson score interval。

    回到之前的问题。抛了十次全部为正,则$\hat{p}=1$。再令$1-\alpha=0.95$。按照公式计算得 L(X) = 0.722 和 U(X) = 1,即得区间 [0.722,1]。我们很有信心地认为第十一次正面的概率处于 0.722 和 1 之间。

    4.总结


    当然啦,硬币可能立起来,哈哈哈。

    相关文章

      网友评论

        本文标题:抛硬币十次正面,第十一次硬币会立起来呢。

        本文链接:https://www.haomeiwen.com/subject/vuymrttx.html