中心极限定理:
1.大量相互独立的随机变量,在采样次数足够大的时候(一般要超过30次以上),其均值或者和的分布以正态分布为极限,中心极限定理的有趣的地方在于,无论随机变量呈现出什么分布,只要你抽取次数无限大,抽取样本的均值就接近于正态分布。对,mark一下重点就是:1.样本的平均值约等于总体的平均值;2.不管总体是什么分布,但是样本的均值都会围绕在总体的整体平均值周围并呈现正态分布。
eg:比如你投6枚筛子,对每次的6个数求平均xn,则x1--xn的分布就满足与正态分布
那中心极限定理的用处是什么呢? eg:你要预测总统的一件事情发生的概率,比如查验食品合格率,你只需要抽查部分就可判断整体合格率,这就用到中心极限定理了,因为样本的均值分布是在总体样本的均值附近呈现正态分布,这样你就知道有68%的样本在总体平均值的一个标准差范围内波动,有95%的样本平均值在总体平均值的两个标准误差范围内,99.7%的在总体平均值三个标准差单位内波动,如果一个样本均值与总体均值的差大于三个标准差,那么我们可以说这个样本不属于这个总体,所以这就是我们拿样本均值估计总体均值的原因所在(当然自我感觉其实在计算一下标准差对估计的评估效果会好一点)。
那么什么是标准差?
标准差是用来估计样本波动大小和数据的离散程度
设均数为A,A=(x1+x2+x3+......+xn)/n,那么标准差D=√{[(x1-A)^2+(x2-A)^2+(x3-A)^2+......+(xn-A)^2]/n},不过现在一般说的是除以n-1。
正态分布:
引于百科:若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。好,mark重点就是:如果一个随机变量,不断抽取随机变量,得到的n个值的平均值收敛于n趋向于无穷时候的期望,这个其实也是基于中心极限定理的,所以当n足够大的时候,可以直接用样本均值估计总体均值。
eg:对一个总体抽取n次,总共n个数值面对n个数值求平均值,则即n个数值的平均值趋向于总体平均值
正态分布性质:
1.正态分布呈钟型,主要性质为有68%的样本在总体平均值的一个标准差范围内波动,有95%的样本平均值在总体平均值的两个标准误差范围内,99.7%的在总体平均值三个标准差单位内波动。
2.如果一个随机变量受到许多因素的影响,并且其中任何一个因素都不对其产生决定性影响,那么该随机变量一般都服从正态分布。
3.u一定时,标准差越大,曲线越矮胖,标准差越小,曲线越瘦高。
4.正态曲线下面的面积意义代表变量值落在此区域的概率,所以正态曲线下方面积为1.
网友评论