浅入浅出 | 贝叶斯定理，来算算你的脱单概率！

作者: 小折线 | 来源:发表于2020-06-06 13:50 被阅读0次

浅入浅出 | 贝叶斯定理，来算算你的脱单概率！
深入浅出、深入深出、浅入浅出、浅入深出
keystone浅入浅出
《浅入浅出》-RocketMQ
浅入浅出zookeeper
JVM浅入浅出
世上有四种老师――顾明远
深入浅出
浅入浅出Closures Expressions -- Swif
浅入浅出Protocols & Extensions--

贝叶斯，凭着一己之力，开创了贝叶斯统计学派，下到买菜大妈，上到学术大牛，无不倒背如流。

逛街，买菜，相亲，穷游，知晓贝叶斯原理，也能让你有的放矢，无忧无愁！

贝叶斯定理，经验与数据的结合，哲学与理性的列车！

来，发车！

1

说到贝叶斯，我们先来慰问一下张三

张三最近，由于新冠疫情，只能在家撸狗，

张三妈妈见孩子卖苹果事业丰收，便开始为张三物色女友，怎却料到张三把脸一臭：

妈，你就别操心了，像我这样，上进有才还幽默的果农，一定能找到一个如花似玉，百里挑一的姑娘。

磨刀不误砍柴工，张三心里琢磨着，我看看，能不能先分析一下自己找到漂亮姑娘的概率：

假设张三眼光很高，要找一个如花似玉，百里挑一的姑娘，那么这些姑娘的人群比例为1%，张三遇到这样的姑娘后，产生好感的可能性很大，比如，95%，而如果对方并不貌美，那么产生好感的概率为10%，那么，如果张三对某个姑娘心生爱慕，这个姑娘貌美如花的概率是多少？

在小学三年级，我们就学过这题需要分类讨论，乘法计算

如花似玉的姑娘的概率1% ，其中：

张三有好感的 1% * 95% = 0.0095
张三没有好感的 1% * (1-95%） = 0.0005

姑娘长的普通的概率为 1-1% = 99% ，其中：

张三有好感的 99% * 10%= 0.0099
张三没有好感的 99% * (1-10%) = 0.891

所以以上四种情况，就是事件发生的所有可能，我们开始计算张三有好感的女生中，姑娘如花似玉的概率

张三对女孩产生好感有两种类型，一种是如花，另一种是普通姑娘，所以，我们实际需要计算的就是在产生好感的所有可能中, 如花似玉的姑娘所占的比例。

即：

$P(如花似玉|有好感) =\frac{P(有好感∩如花似玉)}{ P(有好感)}$

$=\frac{P(有好感 ∩ 如花似玉)}{P(有好感 ∩ 如花似玉)+P(有好感 ∩ 相貌普通)}$

$= \frac{0.0095}{0.0095+ 0.099} = 0.088$

张三号称他的对象要百里挑一，结果一通计算猛如虎，一看概率，8.75，也就是说，有90%以上的概率，他会爱上一个相貌普通，温柔贤惠的姑娘，共度一生。

这，大概就是贝叶斯的哲学吧！

2

但是，为什么，会计算出那么令人诧异的结果呢？

要么就是你错了，要么就是贝叶斯错了

贝叶斯说，你的大脑欺骗了你，所以你错了。

人类的大脑总是愿意去过分推断眼前证据，或者过分夸大某些证据背后的效果，所以人的估计往往是过于极端，而统计学，则可以让你...

贝叶斯公式：

假设A和B是两个非独立事件，A和B会互相影响对方发生的概率。
那么，A和B同时发生的概率为
$P(A ∩ B) =P(B ∩ A)$

$P(A) * P(B | A) = P(B) * P(A | B)$

即， A和B同时发生的概率 = A发生的概率 * A发生的情况下B发生的概率 = B发生的概率 * B发生的情况下A发生的概率
然后我们开始移魂换影，就可以得到如下公式：
$P(B | A) =\frac{P(A ∩ B) }{P(A)} = \frac{ P(B) * P(A | B) }{P(A) }$

由于人群中的如花姑娘只有1%，所以就造成了 $P(A ∩ B)$ 过小的局面，即使张三对普通姑娘的心动概率只有10%，其人数也远远超过貌美如花的姑娘中的心动人数。

3

张三呵呵一笑， 这个东西，很好理解嘛！

然而，张三还是 Too Young Too Simple

在大多的应用场景下，统计模型往往复杂的多，

比如，在上面的例子中，我们假设1%的姑娘如花似玉，99%长相普通，简单暴力地分成了两部分，但现实生活中，张三对每一位姑娘可能内心都有一个分数，比如，下面是一个频数图，大多数姑娘都在5-9分之间

Curve1.png

而令他产生好感的概率，更可能是一条连续的曲线(好感率 vs 颜值)。

Curve2.png

这时候，我们要怎么评估呢？

$P( 颜值|好感率) = \frac{ P(颜值) * P(好感率|颜值) }{P(好感率)}$

而 P(好感率) 指在没有任何信息下张三对人的产生好感的可能，应该是一个定值，可以不考虑，

$P( 颜值|好感率) = P(颜值) * P(好感率 | 颜值)$

接下来我们就可以对不同的美丽度和好感率进行计算。如果张三对一个女生产生好感的概率为0.9，那么其颜值大概在什么范围呢？这是我们将颜值从0到10 依次带入：

好感度0.9，颜值 0 ：P(0|0.9) = P1(0), P2(0.9|0)
P1为Curve1的值，表示颜值分布概率
P2(x | 0) 为某颜值下产生好感的概率，我们假设是一个正态分布，均值为 Curve2中对应的值， SE为0.2
于是：P(0| 0.9) = 2.79e-08

依次类推

P(1| 0.9) = 4.47e-08
P(2| 0.9) = ...
...

所有的数据都带入后是这样的：

蓝色为好感度为0.3的妹子的颜值概率分布
橙色为好感度为0.6的妹子的颜值概率分布
绿色为好感度为0.9的妹子的颜值概率分布

大家可以看到，由于张三认为人群中的女生都挺美丽的，在5-9分之间，所以，即使是0.3的好感度，其颜值可能的范围也往5-9这个范围靠拢了。

所以，我们称 P(颜值) 叫做先验，P( 颜值| 好感率) 为后验。

张三对人群中的妹子的美丽度评价就是一个实现存在的经验值（先验），我们在这个经验值的基础上，参考额外获得的信息，来对我们的估计进行修正（后验）。

在传统的统计学中，我们一般都通过频率来估计某件事发生的概率区间，通过抽样，对样本进行统计来建立估计。然而，且不说样本的数量够不够，每次统计是独立的，封闭的，无法参考以往的统计结果和经验。利用抽样对先验不断修正，比只统计单次抽样自然要稳定可靠！小学我们就学过，我们应该站在巨人的肩膀上思考，而贝叶斯定理，就是通往肩膀的梯子！

张三的数据分析到此就告一段落了，他突然想明白了一个道理:
我们大脑就是一个天然的贝叶斯预测器，我们根据现有的经验或者预设建立先验，再结合手上的证据修正我们的估计。颜值是一个先验，但一味追求高先验并不能保证高的后验，两个人在一起，会有很多因素修正最终的好感度，每一件事，每一次相处都会无形的修正我们好感度，而真正决定两个人长久的，不是颜值。毕竟，他已经有一只颜值爆表的小狗了！

结语

虽然大脑是一个天然的贝叶斯预测器，利用当前的数据来修正我们的观点，但是大脑没有数据支撑，往往会夸大当前获得的信息的重要性，忽略了先验，容易造成了结果偏向极端。

比如我每次看奇葩说，都觉得自己是个傻子

正方说完

正方说完
反方说完

反方说完

正方反驳

正方反驳

我什么时候居然变成了一颗海草

image

贝叶斯是一种思维方式，一种经验与数据的结合的哲思，不仅在数据分析中非常有用，在生活中，也以哲学的方式提醒我们。

比如这次的疫情初期，长辈家长执意要走亲访友，就是过于相信我们处于安全之中这个先验，而没有根据当时信息迅速修正。

再比如社交中，我们对别人的第一映像就是先验，之后的相处就是不断地修正先验获得后验的过程，我们不能只看先验，一直带着固有印象去看别人，也不能片面地只看后验，用一次过失否定别人。

浅入浅出 | 贝叶斯定理，来算算你的脱单概率！
贝叶斯，凭着一己之力，开创了贝叶斯统计学派，下到买菜大妈，上到学术大牛，无不倒背如流。逛街，买菜，相亲，穷游，...
深入浅出、深入深出、浅入浅出、浅入深出
伊川思源实验学校张文明在网上读到这样一段话：世界上有四种老师，第一种是讲课能深入浅出，很深...
keystone浅入浅出
在OpenStack的框架体系中Keystone的作用类似于一个服务总线，为OpenStack提供身份管理服务(I...
《浅入浅出》-RocketMQ
你知道的越多，你不知道的越多点赞再看，养成习惯本文GitHub https://github.com/Java...
浅入浅出zookeeper
zookeeper是我们日常开发中每天都能接触到的组件，但是好像很多人对其缺乏了解，所以心血来潮写了这篇文章。首先...
JVM浅入浅出
说是浅入浅出，其实还是需要在入和出的过程中，进行一个深入的了解。在了解JVM之前，我其实是从比较常见的JVM面...
世上有四种老师――顾明远
1、深入浅出――轻负高效 2、深入深出――重负高效 3、浅入浅出――轻负低效 4、浅入深出――重负低效
深入浅出
文章有四种境界：深入浅出，深入深出，浅入浅出，浅入深出。深入浅出是最高境界，也最难。没有对所论事物的深刻认识做不...
浅入浅出Closures Expressions -- Swif
Swift Syntax L3 -- Udacity 笔记目录:1.浅入浅出Optional type2.浅入浅...
浅入浅出Protocols & Extensions--
Swift Syntax L2 -- Udacity 笔记目录:1.浅入浅出Optional type2.浅入浅...