![](https://img.haomeiwen.com/i10785685/ef766cf1097dfda1.png)
在一个月黑风高的晚上,你独自一人准备滴滴🚖回家。突然妖风大作,眨眼过后出现了三个外星人(R、G、B颜色代表)。
根据维基百科的介绍,外星人群里的通讯协议是这样的:
- 外星人对任何问题的回答只有Yes or No (二进制1与0);
- 头领对答案的选择是完全随机的;
- 由于心电感应的存在,小弟以概率q照搬头领的答案 (q > 0.5),小弟彼此之间没有任何关系。
你问了四个不相关的问题,他们的答案依照(R,G,B)的顺序如下,
N N N
N N Y
N Y Y
Y Y Y
现在,我们来试试找出谁是带头大哥.
我们先假设R是头领进行推断.对于第一个问题的回答而言(第一行) ,
因为头领的答案是完全随机的, 也就是N和Y的概率都是0.5, 而小弟们按照概率q复制头领的答案,所以得到一个简单的表:
![](https://img.haomeiwen.com/i10785685/ea61a05f5e3ac4a0.png)
在假设R是头领的情况下, 我们把上面的答案结合这张表做一下翻译:
![](https://img.haomeiwen.com/i10785685/8b44348b7718f924.png)
因为两个小弟之间的答案(在头领回答以后)是没有关联的,同时问题之间也不相关,因此我们可以把上面表里的每个概率项都乘起来,得到一个 四个问题一起作出上述回答的联合概率分布, 下面是更一般的抽象表示,
![](https://img.haomeiwen.com/i10785685/48581af07fd511f9.png)
这里面有一个未知参数q, 这个q取多少的时候, 上面的四个答案才最有可能发生呢?
事实上, 我们确实收到了四个特定答案. 但如果时光倒流,问题本身的可能答案还有其他很多组, 而我们得到了特定的这一组答案. 因此,既然我们得到的答案确定发生过, 那么他就应该是所有可能答案组当中可能性最大的那个!
举一个更通俗的例子,你抛1000次硬币全是字的时候,你会觉得这个硬币是正常的吗(均匀的)? 很大程度上, 你会认为这个硬币两面都是字.
要让这组答案最有可能发生的q,实际上就是通过q使得上面的连乘形式的概率取最大值. 这下好办了, 常数项完全不看, 上述概率便与下面有正相关,
![](https://img.haomeiwen.com/i10785685/7e744899e2ede58a.png)
通过求导的方式或者其他手段, 可以得到q = 5/8的时候达到最大值.
回到上面硬币的例子, 抛1000次硬币, 结果出现了880次字, 那么这枚硬币有字那面的概率最可能是多少呢? 880 / 1000 是不是和直觉完全对得上!
好了,我们整理下上面的讨论过程. 假设R是头领, 那么如果要让得到的这组答案出现的话, q要取5/8.
考虑到q是0到1之间的某个数, 猜想不同取值的时候, 可能对头领的选择也会有影响.
因此把q在0到1之间取了100个值,并把对应情况下, RGB分别是头领的概率作图.
![](https://img.haomeiwen.com/i10785685/e4799dda12e03581.png)
图上用红色和绿色的竖线分别标出了R/B和G作为leader情况下, 得到上述答案的q的数值, 因为这里是抽样,所以并非是理论上的极值点.
同时, 可以看到只要q > 0.5(灰色区域), 绿色曲线总在红、蓝曲线之上, 这意味着G最有可能是头领的!
作为最大似然估计和结构学习的第一篇文章, 给大家图个开心就好.
网友评论