引子
今天再一个微信群里看到一个小哥哥说,自己把妹成功率为90% (震惊.jpg)。 为了支持他的论点,他列举了自己情史:“追了5个女孩, 收获了4个女朋友”。 霍, 貌似成功率不低。 但是, 先别着急崇拜, 这里好像有点什么不对劲。 是的, 虽然从历史成绩计算, 他的成功率是 80%, 接近90%, 但是样本量太低, 很容易被巧合干扰。
验证
作为单身工科狗, 对于这种炫耀, 唯一的反击就是拿起统计工具, 来推演一下他实际的把妹成功率。(万一算出来很低呢, 那不就可以自我安慰了么:“他只是运气好”)
为了进行计算, 首先,要进行假设
- 小哥哥把妹成功率对所有妹子都相同 (对现实的简化)
- 每个妹子互相独立,不存在相互干扰 (可以假设她们互不认识,不是互为闺蜜关系)
- 把妹结果只有2种, 成功:用1代表, 失败,用0代表
有了上面的假设, 我们就可以把小哥哥把妹过程看做贝努力实验, 这样,就可以用二项分布来计算了。 这里首先明确一下我们的目标, 所以“这位小哥哥真实把妹成功率”, 我们用 95%置信区间来表示。 那么问题就转换成:
已知样本成功率为 p = 0.8, 样本数量 n=5, 的情况下,求总体成功率的 95% 的置信区间。
翻译成人话就是
已知小哥哥把妹5次, 成功4次。 求小哥哥实际把妹成功率在什么范围内, 这个范围要95% 有效
带入公式
这里体用 R 计算
p = 0.8
q = 1-0.8
n = 5
h = 1.96 * sqrt(p*q/n)
ci = c(p-h, p+h)
ci = 0.4493845 1.1506155
解读
小哥哥实际把妹成功率, 应该再 45% ~ 100% 之间,之所以出现最大值大于 100% ,是因为样本数量, 太小, 所以这里的结果只能是个大概的参考。 如果小哥哥是 20次 成功16 次, 那么 95% 的置信区间就变成了 62% ~ 97% 。
p = 0.8
q = 1-0.8
n = 10
h = 1.96 * sqrt(p*q/n)
ci = c(p-h, p+h)
ci = 0.6246923 0.9753077
这个成功率应该当海王没有问题了。
结论
受制于样本数量太小 ,无法正确估计上限, 但是这个小哥哥宣称把妹成功率 90% 并不是在吹牛,不过也可能低至 45% ,更精确的数据需要这个帅哥继续努力。 好了, 今日份狗粮已经吃饱, 我要去学习了(大哭.jpg)。
未完成问题
对于n=5 的是, 是否有更好的估算置信区间的方法, 我还没有找到, 如果大家知道的话, 希望告诉, 先谢过了。
网友评论