美文网首页统计学
正态分布和中心极限定理

正态分布和中心极限定理

作者: Z_bioinfo | 来源:发表于2022-04-09 09:55 被阅读0次

    1.正态分布

    正态分布(Normal distribution),又名高斯分布(Gaussian distribution)。

    正态分布的均值,决定了分布的位置。

    其方差或标准差,决定了分布的幅度。标准差SD越小,则曲线越高尖,反之则越矮胖。

    95%的测量值介于均值±两个标准差

    2.中心极限定理

    中心极限定理:从均值为μ,方差为σ2的任意一个总体中抽取样本量为n的样本,当n足够大时,样本均值 \overline{x} 的抽样分布近似服从均值为μ,方差为σ2/n的正态分布。

    1.均匀分布验证

    让我们从均匀分布开始:

    这个分布从0到1,在0和1之间选择数值的概率相等。我们可以从这个均匀分布中随机抽取20个样本,然后计算这些样本的平均值。

    通过多次随机抽取20个样本,将得到的均值进行绘图,在直方图上加上100个平均值后:很容易看出这些平均值是正态分布的。


    image.png

    即使这些平均值是用均匀分布的数据计算出来的,平均值本身不是均匀分布的, 而是正态分布的。

    2.指数分布验证

    这次我们从指数分布开始:

    像以前一样, 我们可以从这个指数分布中采集20个随机样本,并且就像以前一样, 我们可以计算出所有样本的平均值。

    通过多次随机抽取20个样本,将得到的均值进行绘图,在直方图上加上100个平均值后:很容易看出这些平均值是正态分布的。 image.png

    即使这些平均值是用指数分布的数据计算出来的,这些平均值却不是指数分布的,相反, 这些平均值是正态分布的。

    事实证明你从什么样的分布开始并不重要,如果你从这些分布中采集样本,那么平均值都将是正态分布的。

    但是知道平均值是正态分布的有什么实际意义呢?

    当我们做一个实验时, 我们并不总是知道我们的数据来自什么分布,但是因为中心极限定理,我们知道样品平均值将是正态分布的,因为我们知道样本的平均值是正态分布的,我们可以:

    用平均值的正态分布来确定置信区间,通过t-检验, 从中我们可以判断两个样本的平均值是否有差异。

    通过方差分析, 从中我们可以判断三个或更多样本的平均值是否存在差异

    注: 有些其他领域的人认为为了保证中心极限定理的正确性,样本大小必须至少为30。这只是一个被认为安全的经验法则,而非必须!

    相关文章

      网友评论

        本文标题:正态分布和中心极限定理

        本文链接:https://www.haomeiwen.com/subject/xqvysrtx.html