美文网首页
恐怖电影钟爱13日?

恐怖电影钟爱13日?

作者: 数科每日 | 来源:发表于2021-02-06 15:38 被阅读0次

    二项分布是统计中一个基础的分布, 也是可以在生活中经常使用的分布。 如果利用的好, 可以帮助我们解决生活中的很多问题, 探寻真相。如果对二项分布不熟悉, 可以参考另外一篇文章: 二项分布

    任务简介

    本文利用二项分布和一个恐怖电影数据集, 来分析恐怖电影是否集中在每个月 13日发行。之所以选择13日, 原因是数据集来自于欧美, 而欧美文化认为13是损日子。也许这样选择, 会让观众在观影前就有一种恐惧感。

    数据集来自于 TidyTuesdayR for Data Science community 提供.

    数据概览

    数据集中可以用来分析的数据有 2782 个,日期包括每个月 1日---30日

    发布数量的日期分布如下图, 可以明显的看出 13号发布的恐怖片最多。 这初步印证了我们的想法, 但是还需要统计验证才能最终证实我们的想法。

    image.png

    利用二项分布检验猜测

    我们可以 “电影是否在13 日发布” 当成一个贝努力实验, 如果没有选择偏好, 那么 “电影在13日发布” 就的概率 p=1/30 。 那么, 我们就看一下这个假设的二项分布,然后在和实际数据比较一下。

    lower <- qbinom(0.975, 2782, 1/30)
    75
    upper <- qbinom(0.025, 2782, 1/30)
    112
    

    利用R语言,我们可以算出, 2.5% 和 97.5% 的分位点, 之所以选择这两个点, 因为他们之间包含了 95% 的可能性,正好是2个标准差。 一般认为,当可能性位于2个标准差以外,就是小概率事件了。 我们利用R, 计算出来:

    p=1/30 的情况下,2782场电影中, 正常情况下, 13日发行的电影数量应该位于 (75, 112) 这个区间中。

    而实际数据显示, 13日发行了124 场电影, 这一已经属于小概率事件了, 我们可以排除发行方没有故意选择的假设。 换句话说, 统计结果支持我们认为, 发行方喜欢在13日发布恐怖电影。

    究竟概率有多小

    进一步的, 我们还可以计算 “13日发行了124 场电影” 这种小概率事件到底概率有多小。

    1 - pbinom(124, 2782, 1/30)
    
    > 0.00067
    

    p=1/30 的情况下,2782场电影中, 13日发行的电影数量大于等于 124 场的概率为 0.67%。

    而一般情况下, 只有概率大于2.5% ,我们才认为正常。


    参考文献

    1. An intuitive real life example of a binomial distribution and how to simulate it in R

    2. Multinomial distribution

    相关文章

      网友评论

          本文标题:恐怖电影钟爱13日?

          本文链接:https://www.haomeiwen.com/subject/mshotltx.html