贝叶斯,凭着一己之力, 开创了贝叶斯统计学派,下到买菜大妈,上到学术大牛,无不倒背如流。
逛街,买菜,相亲,穷游,知晓贝叶斯原理,也能让你有的放矢,无忧无愁!
贝叶斯定理,经验与数据的结合, 哲学与理性的列车!
来,发车!
1
说到贝叶斯,我们先来慰问一下张三
张三最近,由于新冠疫情,只能在家撸狗,
张三妈妈见孩子卖苹果事业丰收,便开始为张三物色女友,怎却料到张三把脸一臭:
妈,你就别操心了,像我这样,上进有才还幽默的果农,一定能找到一个如花似玉,百里挑一的姑娘。
磨刀不误砍柴工,张三心里琢磨着,我看看,能不能先分析一下自己找到漂亮姑娘的概率:
假设张三眼光很高,要找一个如花似玉,百里挑一的姑娘,那么这些姑娘的人群比例为1%,张三遇到这样的姑娘后,产生好感的可能性很大,比如,95%,而如果对方并不貌美,那么产生好感的概率为10%,那么,如果张三对某个姑娘心生爱慕,这个姑娘貌美如花的概率是多少?
在小学三年级,我们就学过这题需要分类讨论,乘法计算

如花似玉的姑娘的概率1% ,其中:
- 张三有好感的 1% * 95% = 0.0095
- 张三没有好感的 1% * (1-95%) = 0.0005
姑娘长的普通的概率为 1-1% = 99% ,其中:
- 张三有好感的 99% * 10%= 0.0099
- 张三没有好感的 99% * (1-10%) = 0.891
所以以上四种情况,就是事件发生的所有可能,我们开始计算张三有好感的女生中,姑娘如花似玉的概率
张三对女孩产生好感有两种类型,一种是如花,另一种是普通姑娘,所以,我们实际需要计算的就是在产生好感的所有可能中, 如花似玉的姑娘所占的比例。

即:
张三号称他的对象要百里挑一,结果一通计算猛如虎,一看概率,8.75,也就是说,有90%以上的概率,他会爱上一个相貌普通,温柔贤惠的姑娘,共度一生。
这,大概就是贝叶斯的哲学吧!
2
但是,为什么,会计算出那么令人诧异的结果呢?
要么就是你错了,要么就是贝叶斯错了
贝叶斯说,你的大脑欺骗了你,所以你错了。
人类的大脑总是愿意去过分推断眼前证据,或者过分夸大某些证据背后的效果,所以人的估计往往是过于极端,而统计学,则可以让你...

贝叶斯公式:
假设A和B是两个非独立事件,A和B会互相影响对方发生的概率。
那么,A和B同时发生的概率为
即, A和B同时发生的概率 = A发生的概率 * A发生的情况下B发生的概率 = B发生的概率 * B发生的情况下A发生的概率
然后我们开始移魂换影,就可以得到如下公式:
由于人群中的如花姑娘只有1%,所以就造成了 过小的局面,即使张三对普通姑娘的心动概率只有10%,其人数也远远超过貌美如花的姑娘中的心动人数。
3
张三呵呵一笑, 这个东西,很好理解嘛!
然而,张三还是 Too Young Too Simple
在大多的应用场景下,统计模型往往复杂的多,
比如,在上面的例子中,我们假设1%的姑娘如花似玉,99%长相普通,简单暴力地分成了两部分,但现实生活中,张三对每一位姑娘可能内心都有一个分数, 比如,下面是一个频数图,大多数姑娘都在5-9分之间

而令他产生好感的概率,更可能是一条连续的曲线(好感率 vs 颜值)。

这时候,我们要怎么评估呢?
而 P(好感率) 指在没有任何信息下张三对人的产生好感的可能,应该是一个定值,可以不考虑,
接下来我们就可以对不同的美丽度和好感率进行计算。如果张三对一个女生产生好感的概率为0.9,那么其颜值大概在什么范围呢? 这是我们将颜值从0到10 依次带入:
-
好感度0.9,颜值 0 :P(0|0.9) = P1(0), P2(0.9|0)
P1为Curve1的值,表示颜值分布概率
P2(x | 0) 为某颜值下产生好感的概率,我们假设是一个正态分布,均值为 Curve2中对应的值, SE为0.2
于是:P(0| 0.9) = 2.79e-08
依次类推
- P(1| 0.9) = 4.47e-08
- P(2| 0.9) = ...
- ...
所有的数据都带入后是这样的:

蓝色 为好感度为0.3的妹子的颜值概率分布
橙色 为好感度为0.6的妹子的颜值概率分布
绿色 为好感度为0.9的妹子的颜值概率分布
大家可以看到,由于张三认为人群中的女生都挺美丽的,在5-9分之间,所以,即使是0.3的好感度,其颜值可能的范围也往5-9这个范围靠拢了。
所以,我们称 P(颜值) 叫做先验,P( 颜值| 好感率) 为后验。
张三对人群中的妹子的美丽度评价就是一个实现存在的经验值(先验),我们在这个经验值的基础上,参考额外获得的信息,来对我们的估计进行修正(后验)。
在传统的统计学中,我们一般都通过频率来估计某件事发生的概率区间,通过抽样,对样本进行统计来建立估计。然而,且不说样本的数量够不够,每次统计是独立的,封闭的,无法参考以往的统计结果和经验。利用抽样对先验不断修正,比只统计单次抽样自然要稳定可靠!小学我们就学过,我们应该站在巨人的肩膀上思考,而贝叶斯定理,就是通往肩膀的梯子!
张三的数据分析到此就告一段落了,他突然想明白了一个道理:
我们大脑就是一个天然的贝叶斯预测器,我们根据现有的经验或者预设建立先验,再结合手上的证据修正我们的估计。颜值是一个先验,但一味追求高先验并不能保证高的后验,两个人在一起,会有很多因素修正最终的好感度,每一件事,每一次相处都会无形的修正我们好感度,而真正决定两个人长久的,不是颜值。毕竟,他已经有一只颜值爆表的小狗了!

结语
虽然大脑是一个天然的贝叶斯预测器,利用当前的数据来修正我们的观点,但是大脑没有数据支撑,往往会夸大当前获得的信息的重要性,忽略了先验,容易造成了结果偏向极端。
比如我每次看奇葩说,都觉得自己是个傻子
-
正方说完
正方说完
-
反方说完
反方说完
-
正方反驳
正方反驳
我什么时候居然变成了一颗海草

贝叶斯是一种思维方式,一种经验与数据的结合的哲思,不仅在数据分析中非常有用,在生活中,也以哲学的方式提醒我们。
比如这次的疫情初期,长辈家长执意要走亲访友,就是过于相信我们处于安全之中这个先验,而没有根据当时信息迅速修正。
再比如社交中,我们对别人的第一映像就是先验,之后的相处就是不断地修正先验获得后验的过程,我们不能只看先验,一直带着固有印象去看别人,也不能片面地只看后验,用一次过失否定别人。
网友评论