欢迎关注我的专栏( つ•̀ω•́)つ【人工智能通识】
高尔顿钉板
弗朗西斯科高尔顿Francis Galton
19世纪的科学家弗朗西斯高尔顿,他是进化论创立者查尔斯达尔文的表弟。高尔顿以其优生学Eugenics而闻名,另外,他也是一名社会学家,是第一个将统计方法应用于人类智能差异研究的学者。
上面图片是高尔顿用来演示现实生活中的随机分布情况的装置,叫做高尔顿钉板。你可以从这个腾讯视频中看到它的运作原理。
如下图所示:
顶部落下的每个深色小球,遇到很多小障碍物(白色小圈),随机的左右弹跳,最终落到下面的竖槽中。
当小球越来越多的落下时,底部各个竖槽积累的小球数量就会呈现中间多两侧少两端更少的分布情况。
我们换个说法:当每个人来到这个世界的时候,都是一样从上往下落,每天都会遇到不同的问题,不同的选择,向左还是向右?越来越多的选择让我们每个人有了不同的人生轨道,但是最终,绝大多数人都落在了中间,成为普普通通或者碌碌无为的人,只有少数经过很多次正确选择的人,走到了右边成为杰出的成功者,也有另一些少数人总是做了太多糟糕的选择,走到了左端成为了失败者甚至犯罪者。
人生哲学和鸡汤卖完之后,我们来看看背后的科学意义。
现实中的随机
我们之前讨论随机问题的时候,提到真随机应该是均匀分布的,扔6万次骰子,就会有1万次扔出6点,1万次扔出5点...
但很多现实情况都不是均匀的,而是有浓有淡的迷雾团。
不均匀,在统计学中是一种常态,反而是均匀的情况很少见,是过于理想的情况。
比如统计一下18岁男青年的身高,如果平均身高是170cm的话,你会发现他们当中绝大多数人的身高都在170cm上下,可能有超过一半的人身高在165~175之间,矮于165的不多,高于175的也不多。
这和我们按照均匀分布的期望完全不同,因为按照均匀期望的话似乎应该155~165的人数,与165~175的人数应该差不多,也和175~185的人数差不多。
正态分布Normal distribution
标准的正态分布就是我们上面说到的中间多两边少的曲线分布,从下图可以看到它遵循68-95-99.7规则。
我们用μ(音miu)表示身高平均数,δ(音xigema)表示某个身高厘米数和μ的差距。这样我们就可以说:
- 总人数中68.5%的人身高在μ-δ到μ+δ之间(红色部分面积);
- 总人数中95%的人身高在μ-2δ到μ+2δ之间(红色+蓝色面积);
- 总人数中99.7%的人身高在μ-3δ到μ+3δ之间(红蓝绿总面积);
你可能在想这个δ是怎么得到的?其实这只是正态分布曲线的一个特性,即使你把上面那张图像橡皮筋一样横向拉长或者竖向拉高,这个比例都不会变。在后面我们会谈论到更多关于这个曲线的算法问题。
正态分布是自然界最常见的一种分布曲线,如果某种情况你搞不清它的分布规律,就假设它是遵循正态分布吧。
正态分布也叫做高斯分布Gaussian distribution,由于曲线的形状像一个钟铃的轮廓,所以也叫做钟形曲线Bell curve。
中心极限定理Central limit theorem
中心极限定理是概率论中的重要定理之一,其实就是说如果有很多很多相互独立的变量对每次结果都产生影响(比如很多阻碍影响下落的小球),那么对于大批量样本最后影响的结果将近似于正态分布。
比如还是抛硬币这个事情,如果我们用数百个硬币一起扔出去,扔5000次,然后统计每次扔出后有多少个硬币正面朝上。
我们知道应该是平均一半左右正面朝上的,但并不是每次都那么平均。如上图可以看出,有大约一半50%(横轴0.5)左右正面朝上的次数最多(竖向频率最高),这部分大约占了绝大部分(三千多次);而左侧表示少于45%硬币正面朝上的次数很少,同样右侧表示高于60%硬币正面朝上的情况更罕见。
有没有可能数百个硬币扔出去后只有一两个正面朝上,其他都是反面朝上的可能呢?有的,在最左端,接近零的位置,我们联想正态曲线的形状就可以猜到的。同样,扔出去几百个硬币几乎全部都正面朝上的可能也是有的。
再看扔多个骰子,统计点数总和的情况。
如果我们扔1个骰子,每次的点数总和(一个骰子也无所谓总不总和)是从1~6这个范围,每个数字的可能性是均等的,1/6。
如果我们扔2个色子,每次的点数总和就是从2~12,每个数字的分布情况可以从下图看出,已经开始有点曲线的样子了。
如果我们扔3个骰子、4个骰子、5个骰子都画出来,如下图n=1,2,3,4,5...第六个小图是把n=2,3,4,5的分布曲线以及正态分布曲线(蓝色)画在一起第六个小图中,可以看到,骰子越多,相互独立的不确定性因素也就越多,结果也就越接近正态分布曲线。
连续分布与离散分布
对于统计身高这个情况,如果我们认定它是按照正态分布的,那么只要知道它的分布曲线就能计算出有多少比例的人的身高会落在某一特定比例中,比如说计算有多少人的身高在168cm到172cm之间或者171.2cm到172.3之间,这样的分布情况实际是在曲线下面的面积内随机分布的,面积内任意连续的位置。
但是注意,对于连续的概率分布,我们不能计算出具体一个数值的概率,比如就没法计算身高171cm的人占多大比例,为什么?因为每个人的身高可以是50cm到250cm之间无限多的数字,171cm只是无限多数字中的一个,可以说身高是171cm的概率是1除以无限多,即0概率。
而上面对于统计骰子的情况就是离散分布的,例如两个骰子只可能是2,3,4,5,6,7,8,9,10,11,12共11中情况,对应11种概率,完全不连续的。
量子的概率
在之前量子相关的文章中,我们提到原子的结构中,电子实际只是概率出现的量子化离散能量体,虽然它并不是按照正态分布的概率出现,但我们仍可以从中看到概率的空间不均匀分布贯穿了微观世界和宏观世界,是支撑我们整个宇宙的重要条件。
未完待续
欢迎关注我的专栏( つ•̀ω•́)つ【人工智能通识】
每个人的智能新时代
如果您发现文章错误,请不吝留言指正;
如果您觉得有用,请点喜欢;
如果您觉得很有用,欢迎转载~
END
网友评论