美文网首页
正态分布的由来

正态分布的由来

作者: 大吉岭猹 | 来源:发表于2019-10-17 20:50 被阅读0次

1. 从算术平均数说起

  • 作为最常用的对总体平均水平的估计,为啥它就是最好的

2. 极大似然估计

  • 任务是通过测量值X1,X2,...,Xn来估计μ,n个数据对应n个误差测量值真实值之差),假设我们挑了一个数

作为对真值μ的估计,我们就能据此算出误差的估计:

  • 如果随机误差e1,e2,...,en服从某种已知的规律,那么出现这些误差的估计的概率就可以被计算出来:
  • 这是一个关于
    的函数,存在一个
    使其取值最大,我们把这个
    视作μ的最佳估计(极大似然意义)
  • 接下来就要找出随机误差的性质,也就是其概率密度函数,从而写出似然函数。
    • 首先,任意两个不同的测量值的随机误差之间是独立的,所以可以把似然函数拆开,变成每个随机误差出现概率的乘积

    • 其次,既然是随机误差,那么它在零点两侧的可能性是相同的。更进一步说,对于绝对值相同的误差,取值为正和取值为负的可能性应该是一样的。

    • 最后,绝对值小的随机误差出现的可能性比绝对值大的可能性大

    • 最后的最后,高斯反向解决了这个问题:假设算术平均数就是对真值的极大似然估计,那么什么样的误差分布能让算数平均数成为极大似然估计呢?他推出了:

也就是我们熟悉的正态分布。

3. 正态分布

3.1. 渊源

  • 拉普拉斯读到了高斯的论文,发现高斯推出的概率密度函数很面熟,和他的中心极限定理(棣莫弗-拉普拉斯中心极限定理)里推出的足够多个二项分布相加得到的分布的概率密度函数非常像。
  • 拉普拉斯认为这不是一个巧合,进而想到,虽然我们并不一定知道随机误差究竟是什么引起的,但是如果误差也可以看成许多微小量(拉普拉斯称之为“元误差”)叠加起来的总和,那么根据中心极限定理,随机误差也就该服从正态分布了。

3.2. 中心极限定理的演进

  • 2.0版:如果我们有n个独立、同分布的随机变量,而且它们的均值和方差都是有限的,那么当n趋于无穷大时,这n个随机变量之和的一个简单变换(类似于之前棣莫弗-拉普拉斯中心极限定理中的变换)服从正态分布。
  • 3.x版:很多时候,即使随机变量并不独立,或者并非来自同样的概率分布,它们的和(或者均值——由于n是个确定的数,因此求和与求均值是等价的)在n足够大时仍然服从正态分布。

3.3. 为什么重要

  • 首先,中心极限定理是概率论和统计学最重要的定理(没有之一);
  • 其次,我们接下来要讲到的许多统计学方法——如t检验、方差分析、多元线性回归等——都会对数据的正态性有要求。

相关文章

  • 正态分布的由来

    参考协和八——说人话的统计学 1. 从算术平均数说起 作为最常用的对总体平均水平的估计,为啥它就是最好的 2. 极...

  • 正态分布

    正态分布的概率密度: 如果μ=0且σ=1,则为标准正态分布: 每个正态分布都可以表示为标准正态分布: 正态分布函数...

  • 四、正态分布

    一、正态分布概率密度函数 二、不同均值和方差的正态分布 三、正态分布总结 四、python正态分布函数

  • 5.归一化

    标准正态分布 标准正态分布(Standard Normal Distribution):标准正态分布式一个特殊的正...

  • t检验的基本思想----t分布

    在学习t检验之前,大家首先要明白什么是t分布? 历史由来: 18世纪初,正态分布被发现后,大家无不惊异于世界的神奇...

  • 谈谈统计学正态分布阈值原理在数据分析工作中的运用

    一、背景 0.0 神说,要有正态分布,于是就有了正态分布。 0.1 神看正态分布是好的,就让随机误差都随了正态分布...

  • 正态分布采样与参数估计可视化

    练习:正态分布采样与参数估计 正态分布:

  • 正态分布

    正态分布 正态分布的定义 若 的概率密度函数为 , 其中 ,就称 服从参数为 的正态分布(或高斯分布), 记...

  • 正态分布的前世今生

    转自-靳志辉(Rickjin@weibo.com) 神说要有正态分布,就有了正态分布。 神说正态分布是好的,就让随...

  • 指数级增长、正态分布和幂律分布

    什么是正态分布? 正态分布就是,边际交付时间较高,但是不用担心市场因为出现一个巨头而形成垄断,选择正态分布...

网友评论

      本文标题:正态分布的由来

      本文链接:https://www.haomeiwen.com/subject/pydvmctx.html