弱大数定律和强大数定律:
弱大数定律的本质是:试验次数越多,频率接近真实概率的可能性越大。——是“可能性”,而不是100%。
强大数定律:随着数据越来越多,频率接近概率不仅是可能性越来越大,而是一定。也就是说,随着数据越来越多,频率最终一定会接近真实的概率。
大数定律的限制条件:只有在数据无限的情况下,随机事件发生的频率才等于它的概率。
但现实中所有的事情都是有限的,我们记录的所有频率,都只是一个随机事件局部的频率。当数据量足够大时,局部频率才会接近整体频率,当数据量很小时,事件的局部频率可能和事件的真实概率相差很大。这里的“数据量足够大”和“数据量很小”是个相对概念。
案例:协和式客机在长达24年的飞行中没有发生过致死事故,一度被认为世界上最安全的飞机。但2000年7月25日,协和式客机出现了一次坠机事故,它的致死率从0直接上升到了百万分之十二,也就是八万分之一。但作为对比的波音737飞行超过一亿次,致死率仅为每百万分之0.4。协和式飞机从最安全的飞机变成了最危险的飞机。
这是协和式客机唯一一次坠机事故,也是最后一次坠机事故,因为它被停飞了。协和式飞机的致死事故率到底是多少?是不是比波音高30倍?这些都已经无法知道了,因为它已经没有机会再飞行一亿次了。
大数定律就像一根绳索,用整体的确定性约束着局部的随机性,随着数据量的增加,把频率这个口袋越勒越紧。
整体不需要通过“补偿”来对局部产生作用,大数定律并不通过补偿来实现,而是利用大量的正常数据,削弱那部分异常数据的影响。也就是对已经发生的异常情况,大数定律并不进行补偿,而是削弱。正常数据越多,异常数据的影响就越小,直到小到可以忽略不计。
案例:把一勺糖放在一杯水里,水很甜。但把这杯水倒进大海,海水的味道却没有任何变化。这勺糖就像异常数据,海水就像大量正常数据。我们不需要把糖从海水中取出来,只是海水太多,糖的影响完全可以忽略不计。
整体的确定性靠什么来保证——均值回归,也就是一个数据和它的正常状态相比有很大偏差的话,那么它向正常状态回归的概率就会变大。
“均值回归”产生作用的对象,是那些特殊的、异常的、极端的数据。这种异常状态是没法长期持续的,回归均值的可能性非常大。
案例:一个学生的数学成绩正常在80左右,某次考试一下子考了100分。下一次考试,他大概率会回归正常,可能是85分,也可能是75分,但再考100分的可能性非常小。
所以中国讲“否极泰来”有一定的道理,“否极”是一种特殊的、极端的、异常的状态,因此无法长期持续,所以大概率上会发生“均值回归”,也就是回到正常状态,不一定是“泰来”,更有可能只是不太差或者比较好而已。
网友评论