估计99.99999%的人学完这个定理,都不知道这俩定理是干嘛的。
大数定理:样本均值依概率收敛到期望
通俗点说,大数定理就是数量足够大的样本,能几乎肯定的反应出总体的真实组成:https://www.zhihu.com/question/20388614。这意味着,我们放心的去抽样,去monte carlo一定不会出错。映射到大数据相关领域的计算上,因为样本数量足够多,所以在大样本量上找到的规律,也一定能反应总体的真实规律。这大概是机器学习算法有效的数学根基。
中心极限定理是说,一个随机变量X,不管他的分布多稀奇古怪,只要期望和方差存在,总是可以通过两个步骤,转变成一个服从正态分布的统计量。
1. 固定样本容量,无穷次抽样
2. 计算样本上的各种形式的和-Y
这个统计量就服从正太分布,这样我们研究的随机变量就从X,变成了Y。正态分布比较见到那,相对好研究,问题就简化了。中心极限定理,看起来有点像bootstrapping的场景。
https://www.cnblogs.com/LittleHann/p/9569708.html
一段很有趣的描述:
0x1:中心极限定理和大数定律的区别
中心极限定理是随机变量和的分布收敛到正态分布的一类定理,而随机变量的和又和随机变量的均值有密切的联系,而大数定律论证的主要部分就是随机变量均值的收敛性特点,因此,中心极限定理和大数定律之间有千丝万缕的联系。
大数定律是说,n只要越来越大,把这n个独立同分布的数加起来去除以n得到的这个样本均值(也是一个随机变量)会依概率收敛到真值u,但是样本均值的分布是怎样的我们不知道
中心极限定理是说,n只要越来越大,这n个数的样本均值会趋近于正态分布,并且这个正态分布以u为均值,sigma^2/n为方差
综上所述,这两个定律都是在说样本均值性质。随着n增大,大数定律说样本均值几乎必然等于均值。中心极限定律说,它越来越趋近于正态分布,并且这个正态分布的方差越来越小。
网友评论