美文网首页
统计学1-描述统计&推论统计

统计学1-描述统计&推论统计

作者: 赵阳_c149 | 来源:发表于2019-10-14 14:48 被阅读0次

概括


变量类型

数据类型可以分为分类数值。进一步,我们可以将数值变量分为连续离散。我们还发现我们可以将分类变量区分为定类定序


数值变量

有四个主要方面用于描述数值变量:

  1. 集中趋势测量
    为了度量集中趋势,可以考虑计算:
  • 均值
  • 中位数
    中位数将我们的数据分为两部分,一半低于它,一半高于它。
    如果我们有奇数个观察值,中位数直接是中间的那个数字。例如,如果我们有 7 个观察值并按从小到大排列,则中位数是第四个值。如果我们有 9 个观察值,则中位数是第五个值。
    如果我们有偶数个观察值,中位数是中间两个值的平均值。例如,如果我们有 8 个观察值并从小到大排列,则计算第四和第五个值的平均值。
    要计算中位数,我们必须首先对值排序
    我们使用平均数还是中位数来描述数据集,很大程度上取决于我们数据集的形状以及是否有任何异常值
  • 众数
    众数指一组数据中出现次数最多的数据值。一个数据集中可能有多个众数,也可能没有众数。
  1. 离散程度测量
    为了度量离散程度,可以考虑计算:
  • 极差
  • 四分位差
  • 标准差
    标准差是方差的平方根。在实践中,我们通常使用标准差而非方差。这是因为标准差与我们的原始数据使用相同的单位,而方差的单位为原始数据单位的平方。
  • 方差
    我们学习到的 方差 计算方法准确来讲叫做 总体方差,计算公式为:
    total.png
    你也有可能看到下面的计算公式,它是 样本方差 的计算方法:
    sample.png
    使用此方法的原因不在目前所学内容的范围内,但你可以在此 找到解释:
    对于样本方差,之所以需要除以n-1,是因为通常观测值会更加接近于样本均值而不是总体均值。也就是说通过样本均值计算出来的标准差低估了总体的标准差。用n-1而不是n作为除数,目的是使得计算出来的结果大一些,从而能纠正偏差。
    注意到,当n越大,纠正的比例就越小,这正是我们想要的,n越大,样本均值就越能很好的估计总体均值。

The standard deviation calculated with a divisor of 𝑛−1 is a standard deviation calculated from the sample as an estimate of the standard deviation of the population from which the sample was drawn. Because the observed values fall, on average, closer to the sample mean than to the population mean, the standard deviation which is calculated using deviations from the sample mean underestimates the desired standard deviation of the population. Using 𝑛−1 instead of 𝑛 as the divisor corrects for that by making the result a little bit bigger.

Note that the correction has a larger proportional effect when 𝑛 is small than when it is large, which is what we want because when n is larger the sample mean is likely to be a good estimator of the population mean.

  1. 分布的形状
    数据的分布通常为以下三种形状:
  • 右偏态
  • 左偏态
  • 对称分布(通常是正态分布)

根据与数据集的形状,某些集中趋势或离散程度度量可能更适用于概括我们的数据集。当我们的数据遵循正态分布时,我们可以使用均值和标准差完全理解我们的数据集。但是,如果我们的数据集是偏态分布,五数概括法(和关联的集中趋势度量)更适用于概括数据。

  1. 异常值
    异常值对于均值度量的影响较大,而对中位数度量的影响较小。应该视情况处理异常值。常用技术包括:
  • 至少注意到它们的存在并确定对概括统计的影响。
  • 如果是输入错误 — 删除或改正
  • 理解它们为何存在,以及对我们想要回答的关于数据的问题的影响。
  • 当有异常值时,报告五数概括法的值通常能比均值和标准差等度量更好地体现异常值的存在。
  • 报告时要小心。知道如何提出正确的问题。

分类变量

在分析分类变量时,我们通常只看一组数据属于一个分类的类别。例如,如果我们有两个狗的分类类别: 拉布拉多与非拉布拉多。我们可以说 32% 的狗为拉布拉多(百分比),也可以说 100 只狗中有 32 只是拉布拉多(计数)。

但是,与描述数值变量相关的四个方面不用于描述分类变量。


直方图和箱线图

可以使用直方图和箱线图来可视化数值数据。使用可视化方式比使用概括统计能使我们更容易地识别异常值和数据分布的形状。


描述统计

描述统计是用来描述收集的数据。


推论统计

推论统计在于使用我们收集的数据对更大的总体数据得出结论。

  1. 总体 —— 我们想要研究的整个群体。
  2. 参数 —— 描述总体的数值摘要
  3. 样本 —— 总体的子集
  4. 统计量 —— 描述样本的数值摘要

相关文章

  • 统计学2 集中趋势 总体样本 方差

    1、统计学分类statistic 1)描述统计学descriptive 2)推论统计学inferential 对样...

  • 统计学1-描述统计&推论统计

    概括 变量类型 数据类型可以分为分类和数值。进一步,我们可以将数值变量分为连续或离散。我们还发现我们可以将分类变量...

  • 数据分析

    数据分析,在我这里,只是一种辅助需求挖掘、业务分析的方法。 统计学上分为描述统计和推论统计。 描述统计,一句话描述...

  • 【读书清单82】心理学与生活4

    1.统计学应用 统计学应用到心理学主要是描述统计和推论统计。前者使用数学程序描述数据的不同方面;后者利用概率作出可...

  • 125、描述统计学基础

    学习数据分析最重要的基础之一是描述统计学,我推荐《深入浅出统计学》这本书,那什么是描述统计学呢? 描述统计学就是将...

  • 初识统计学

    一、什么是描述统计学 官方定义:描述统计学(descriptive statistics)是研究如何取得反映客观现...

  • 统计与统计数据

    统计学的两个分支:描述统计和推断统计。 什么是描述统计呢?研究数据收集、整理和描述的统计学方法,包括如何取得所需数...

  • 女士品茶

    描述统计:对数据进行整理,简单直观的呈现数据。 推论统计:利用样本信息推论总体,用已知去预测未知。

  • 糖衣之下往往都有精心包装的[统计陷阱]

    《赤裸裸的统计学》 1、描述统计学是[一种对复杂事物进行简单归纳的工具]。常见的描述统计方法有均值、中值、方差等。...

  • 描述统计和推论统计

网友评论

      本文标题:统计学1-描述统计&推论统计

      本文链接:https://www.haomeiwen.com/subject/cejapctx.html