美文网首页神烦数学
正态分布在统计学里是怎样的存在?

正态分布在统计学里是怎样的存在?

作者: 左岸书 | 来源:发表于2019-01-14 20:45 被阅读0次

    正态分布(Normal distribution)是统计学里最常见的分布之一。

    In probability theory, the normal (or Gaussian or Gauss or Laplace–Gauss) distribution is a very common continuous probability distribution.

    正态分布概念是由德国的数学家和天文学家Moivre于1733年首次提出的,但由于德国数学家Gauss率先将其应用于天文学家研究,故正态分布又叫高斯分布(Gauss distribution)。

    这里简单介绍一下,统计学的分布类型包括连续型、离散型两类。 针对连续型数据,有正态分布、均匀分布、指数分布、伽玛分布、贝塔分布等,其连续型随机变量X的分布函数是连续的。 针对离散型数据,二项分布、泊松分布、几何分布、负二项分布等,其随机变量X的所有可能的取值是离散的。如在某次射击考核中,总共射击10次,命中的次数X服从二项分布B( 10,P)(p为射击命中率),该分布函数只有0-10共11个可能的取值,属于离散分布。

    正态的英文单词是“Normal”,意思是“常见的,典型的”,主要是因为这种分布能恰当代表多种多样的数据类型。

    正态分布的奇妙之处就在于它是自然分布,任何看似没有规律可寻的随机事件其实是服从一个表达式就能表达的正态分布,不受人为影响。 以数学理解为中心极限定理,即所有的随机事件取样本均值足够多的情况下都服从正态分布,所以就产生了对变量正态分布的假设(这个理解主要来自于中心极限定理概念里面提出的当随机变量受综合因素影响,且每一个因素影响较小时,该变量都服从正态分布的定理)

    例如,对人类的智商评估结果做一个分析,发现大部分人都在100这一平均值附近波动,75%聚集在85~115之间。这就是一个典型的正态分布,是自然形成的,不受人为因素左右。只有少数,比如莫扎特、爱因斯坦等少数天才达到160,也就成为分布中的奇异值(outlier)。再如《阿甘正传》里的主人公阿甘,他的智商只有70,则是处于正态分布的边缘(曲线一侧的尾端)。


    正态曲线呈钟型,大部分数据集中在平均值,小部分在两端,中间高,两头低,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。


    在统计学里,很多场景都需要符号正态分布的假设。 比如,对一组数据做t-test,z-test,或者对两组数据做two-sample t-test, paired t-test等,都要求样本数据符合正态分布。 再如,对一组连续型数据进行回归分析,要求残差值符合正态分布,在此基础上得到的模型及结果才具有可靠性。

    后续我们将讲解如何检测正态性(Normality test)。

    相关文章

      网友评论

        本文标题:正态分布在统计学里是怎样的存在?

        本文链接:https://www.haomeiwen.com/subject/yyzzsftx.html