美文网首页机器学习
机器学习中正态分布为什么常见?

机器学习中正态分布为什么常见?

作者: 城市中迷途小书童 | 来源:发表于2018-10-14 17:45 被阅读89次

统计学里面,正态分布(normal distribution)最常见。男女身高、寿命、血压、考试成绩、测量误差等等,都属于正态分布。

以前,我认为中间状态是事物的常态,过高和过低都属于少数,这导致了正态分布的普遍性。最近,读到了 John D. Cook [1] 的文章,才知道我的这种想法是错的。

正态分布为什么常见?真正原因是中心极限定理(central limit theorem)

"多个独立统计量的和的平均值,符合正态分布。"

上图中,随着统计量个数的增加,它们和的平均值越来越符合正态分布。

根据中心极限定理,如果一个事物受到多种因素的影响,不管每个因素本身是什么分布,它们加总后,结果的平均值就是正态分布。

举例来说,人的身高既有先天因素(基因),也有后天因素(营养)。每一种因素对身高的影响都是一个统计量,不管这些统计量本身是什么分布,它们和的平均值符合正态分布。(注意:男性身高和女性身高都是正态分布,但男女混合人群的身高不是正态分布。)

许多事物都受到多种因素的影响,这导致了正态分布的常见

读到这里,读者可能马上就会提出一个问题:正态分布是对称的(高个子与矮个子的比例相同),但是很多真实世界的分布是不对称的。

比如,财富的分布就是不对称的,富人的有钱程度(可能比平均值高出上万倍),远远超出穷人的贫穷程度(平均值的十分之一就是赤贫了),即财富分布曲线有右侧的长尾。相比来说,身高的差异就小得多,最高和最矮的人与平均身高的差距,都在30%多。

这是为什么呢,财富明明也受到多种因素的影响,怎么就不是正态分布呢?

原来,正态分布只适合各种因素累加的情况,如果这些因素不是彼此独立的,会互相加强影响,那么就不是正态分布了。一个人是否能够挣大钱,由多种因素决定:

家庭

教育

运气

工作

...

这些因素都不是独立的,会彼此加强。如果出生在上层家庭,那么你就有更大的机会接受良好的教育、找到高薪的工作、遇见好机会,反之亦然。也就是说,这不是 1 + 1 = 2 的效果,而是 1 + 1 > 2。

统计学家发现,如果各种因素对结果的影响不是相加,而是相乘,那么最终结果不是正态分布,而是对数正态分布(log normal distribution),即 x 的对数值log(x)满足正态分布。

这就是说,财富的对数值满足正态分布。如果平均财富是10,000元,那么1000元~10,000元之间的穷人(比平均值低一个数量级,宽度为9000)与10,000元~100,000元之间的富人(比平均值高一个数量级,宽度为90,000)人数一样多。因此,财富曲线左侧的范围比较窄,右侧出现长尾。

参考链接

[1] Why isn't everything normally distributed?, John D. Cook

https://www.johndcook.com/blog/2015/03/09/why-isnt-everything-normally-distributed/

[2] Achievement is not normal, by John D. Cook

https://www.johndcook.com/blog/2009/09/29/achievement-is-log-normal/

作者:7125messi

链接:https://www.jianshu.com/p/22181040d5f4

來源:简书

简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

相关文章

  • 机器学习中正态分布为什么常见?

    统计学里面,正态分布(normal distribution)最常见。男女身高、寿命、血压、考试成绩、测量误差等等...

  • 浅学正态分布(进阶历程)

    正态分布(normal distribution),normal: 常见的,典型的。正态分布即常见的分布。 正态分...

  • 高斯分布(Gaussian distribution)

    高斯分布就是正态分布: 在机器学习中,人们习惯使用1/m,尽管不是1/(m-1),但是区别不大,可以忽略。

  • 入门机器学习,我们都要学什么?

    作为一个初学机器学习的人,确定学习目标很重要。这篇文章列举出机器学习中基础的常见算法。 机器学习的算法分为监督学习...

  • 机器学习工程师常犯的6大错误,(新手必看)

    初学者在从事机器学习或数据科学项目时经常会遇到一些常见的错误?在这里我们列出这些最常见的错误。在机器学习中,构建产...

  • 数据预处理

    机器学习输入的特征数据进行训练时需要进行标准化、归一化,使数据的分布符合正态分布模型(生活中多数数据都是此模型),...

  • 用sklearn.preprocessing.StandardS

    数据集的标准化,在scikit中,对于众多机器学习评估器来说是必须的;如果各独立特征不进行标准化,结果标准正态分布...

  • 08-KNN

    一.机器学习原理 原理机器学习原理.png 常见名词 训练数据类 二.机器学习分类 2.1 有监督学习 分类 K近...

  • 数学知识

    为什么要关心数学?为什么机器学习中的数学很重要?漫漫的机器学习之路怎么可以没有数据的奠基~先在这里罗列一下机器学习...

  • 机器学习-逻辑回归推导

    逻辑回归在机器学习中属于比较常见的模型,它由感知机模型发展而来。刚学习机器学习的时候,看到感知机这个名字好奇怪,为...

网友评论

    本文标题:机器学习中正态分布为什么常见?

    本文链接:https://www.haomeiwen.com/subject/suhtzftx.html