美文网首页
机器学习相关的统计学知识

机器学习相关的统计学知识

作者: 叫兽吃橙子 | 来源:发表于2019-01-11 16:23 被阅读0次

    中心极限定理

    找猴子的那个答案
    https://www.zhihu.com/question/22913867

    中心极限定理

    • 样本的平均值约等于总体的平均值。
    • 不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。


      中心极限定理

    中心极限定理应用

    1.用样本来估计总体。

    • 任何一个样本的平均值将会约等于其所在总体的平均值。
      2.样本平均值呈正态分布
      3.如何用样本估计总体
      我们已经知道,一个数据集的标准差是数值与平均值的偏离程度。当你选择一个样本后,相比总体,你拥有数据的数量是变少了,因此,与总体中的数值偏离平均值的程度相比,样本中很有可能把较为极端的数值排除在外,这样使得数值更有可能以更紧密的方式聚集在均值周围。也就是说,样本的标准差要小于总体标准差。所以,为了更好的用样本估计总体的标准差,统计学家就将标准差的公式做了像下面图中公式中这样的改造。


      样本估计总体的标准差

    即原来的标准差公式是除以n,为了用样本估计总体标准差,现在是除以n-1。这样就是的标准略大。一般用字母s表示用样本估计出的总体标准差。

    很多书上都会把除以n-1的标准差叫做样本标准,其实会给很多人造成误解。其实这个样本标准差的目的是用于估计总体标准差。

    你可能会疑惑,那我什么时候标准差除以n还是n-1呢?

    那就要看你使用标准差的目的是什么。

    如果你只是想计算一个数据集的标准差,那么就除以n,例如你有100个毕业与清华人的收入,只是想了解这100个人构成的数据集的波动大小,那你就用除以n的标准差公式。

    如果你想把这100个人当成一个样本,用这个样本来估计出总体(所有毕业与清华人的收入)的标准差,那么就除以n-1的标准差公式。

    标准误差

    标准差是用来衡量数据集的波动大小。比如毕业于清华大学所有人的收入分布。

    标准误差其实也是标准差,只不过它是所有样本平均值的标准差。


    标准差与标准误差

    标准误差的简单公式,这个图其实就是前面我们讲过的正态分布概率图,只不过这里的横轴是样本平均值的大小,纵轴是该平均值出现的概率。这里是标准误差。


    标准误差的简单公式

    大数定律

    • 如果数据少,随机现象可以看上去很不随机。甚至非常整齐,感觉好像真有规律一样。
    • 小数定律是说,如果统计数据很少,那么事件就表现为各种极端情况,而这些情况都是偶然事件,跟它的期望值一点关系都没有。


      小数定律
    • 如果统计数据不够大,就什么也说明不了。
    • 大数定律说如果统计数据足够大,那么事物出现的频率就能无限接近他的期望值。
    • 某个事件的期望值,也就是收益,实际上是所有不同结果的和,其中每个结果都是由各自的概率和收益相乘而来。


      横轴是扔筛子的次数,纵轴是筛子抛出点数的期望

    相关文章

      网友评论

          本文标题:机器学习相关的统计学知识

          本文链接:https://www.haomeiwen.com/subject/skmxdqtx.html