美文网首页
机器学习相关的统计学知识

机器学习相关的统计学知识

作者: 叫兽吃橙子 | 来源:发表于2019-01-11 16:23 被阅读0次

中心极限定理

找猴子的那个答案
https://www.zhihu.com/question/22913867

中心极限定理

  • 样本的平均值约等于总体的平均值。
  • 不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。


    中心极限定理

中心极限定理应用

1.用样本来估计总体。

  • 任何一个样本的平均值将会约等于其所在总体的平均值。
    2.样本平均值呈正态分布
    3.如何用样本估计总体
    我们已经知道,一个数据集的标准差是数值与平均值的偏离程度。当你选择一个样本后,相比总体,你拥有数据的数量是变少了,因此,与总体中的数值偏离平均值的程度相比,样本中很有可能把较为极端的数值排除在外,这样使得数值更有可能以更紧密的方式聚集在均值周围。也就是说,样本的标准差要小于总体标准差。所以,为了更好的用样本估计总体的标准差,统计学家就将标准差的公式做了像下面图中公式中这样的改造。


    样本估计总体的标准差

即原来的标准差公式是除以n,为了用样本估计总体标准差,现在是除以n-1。这样就是的标准略大。一般用字母s表示用样本估计出的总体标准差。

很多书上都会把除以n-1的标准差叫做样本标准,其实会给很多人造成误解。其实这个样本标准差的目的是用于估计总体标准差。

你可能会疑惑,那我什么时候标准差除以n还是n-1呢?

那就要看你使用标准差的目的是什么。

如果你只是想计算一个数据集的标准差,那么就除以n,例如你有100个毕业与清华人的收入,只是想了解这100个人构成的数据集的波动大小,那你就用除以n的标准差公式。

如果你想把这100个人当成一个样本,用这个样本来估计出总体(所有毕业与清华人的收入)的标准差,那么就除以n-1的标准差公式。

标准误差

标准差是用来衡量数据集的波动大小。比如毕业于清华大学所有人的收入分布。

标准误差其实也是标准差,只不过它是所有样本平均值的标准差。


标准差与标准误差

标准误差的简单公式,这个图其实就是前面我们讲过的正态分布概率图,只不过这里的横轴是样本平均值的大小,纵轴是该平均值出现的概率。这里是标准误差。


标准误差的简单公式

大数定律

  • 如果数据少,随机现象可以看上去很不随机。甚至非常整齐,感觉好像真有规律一样。
  • 小数定律是说,如果统计数据很少,那么事件就表现为各种极端情况,而这些情况都是偶然事件,跟它的期望值一点关系都没有。


    小数定律
  • 如果统计数据不够大,就什么也说明不了。
  • 大数定律说如果统计数据足够大,那么事物出现的频率就能无限接近他的期望值。
  • 某个事件的期望值,也就是收益,实际上是所有不同结果的和,其中每个结果都是由各自的概率和收益相乘而来。


    横轴是扔筛子的次数,纵轴是筛子抛出点数的期望

相关文章

  • Advanced R

    基础知识 其优点 有大量统计建模,机器学习,可视化的相关包,快速实现你的想法 很前沿,因为统计学和机器学习的研究人...

  • 机器学习相关的统计学知识

    中心极限定理 找猴子的那个答案https://www.zhihu.com/question/22913867 中心...

  • 统计学学习方法推荐

    学习目标: 统计学基础知识 统计(假设)检验相关 用R语言进行统计学相关分析计算 统计学基础知识: 统计学入门路线...

  • 数据分析有哪些好书值得推荐?

    1、统计学书单 如果你打开招聘的职位要求,都会要求具有统计学的知识,这是因为统计学是数据分析、机器学习的基础知识,...

  • 如何在机器学习项目中使用统计方法的示例

    摘要:在本文中,将通过十个实例介绍在机器学习项目中起关键作用的统计学方法。 统计学和机器学习是两个密切相关的领域。...

  • AI开发日志 代码资源等

    AI开发日志 代码资源等 计划 预备知识Python 基础数学基础 机器学习统计学习方法西瓜书机器学习实战 深度学...

  • 半年的计划

    今天是6.30,截止今年年底,我需要做到的有以下几点: 机器学习方向的知识:统计学习方法,机器学习,数据挖掘导论,...

  • 双样本T检验——机器学习特征工程相关性分析实战

    最近在做数据分析方面的工作,经常需要检验两组样本之间是否存在差异,所以会遇到统计学中假设检验相关的知识。在机器学习...

  • 机器学习之旅二:概率论

    以下文章作为个人学习的知识总结 机器学习也叫做统计学习,因为大部分机器学习算法建立在概率统计理论基础之上,掌握概率...

  • 台湾大学林轩田机器学习基石课程学习笔记5 -- Training

    上节课,我们主要介绍了机器学习的可行性。首先,由NFL定理可知,机器学习貌似是不可行的。但是,随后引入了统计学知识...

网友评论

      本文标题:机器学习相关的统计学知识

      本文链接:https://www.haomeiwen.com/subject/skmxdqtx.html