概括
变量类型
数据类型可以分为分类
和数值
。进一步,我们可以将数值变量分为连续
或离散
。我们还发现我们可以将分类变量区分为定类
或定序
。
数值变量
有四个主要方面用于描述数值
变量:
-
集中趋势测量
为了度量集中趋势
,可以考虑计算:
- 均值
-
中位数
中位数将我们的数据分为两部分,一半低于它,一半高于它。
如果我们有奇数个观察值,中位数直接是中间的那个数字。例如,如果我们有 7 个观察值并按从小到大排列,则中位数是第四个值。如果我们有 9 个观察值,则中位数是第五个值。
如果我们有偶数个观察值,中位数是中间两个值的平均值。例如,如果我们有 8 个观察值并从小到大排列,则计算第四和第五个值的平均值。
要计算中位数,我们必须首先对值排序。
我们使用平均数还是中位数来描述数据集,很大程度上取决于我们数据集的形状以及是否有任何异常值。 -
众数
众数指一组数据中出现次数最多的数据值。一个数据集中可能有多个众数,也可能没有众数。
-
离散程度测量
为了度量离散程度
,可以考虑计算:
- 极差
- 四分位差
-
标准差
标准差是方差
的平方根。在实践中,我们通常使用标准差
而非方差
。这是因为标准差
与我们的原始数据使用相同的单位,而方差
的单位为原始数据单位的平方。 -
方差
我们学习到的方差
计算方法准确来讲叫做 总体方差,计算公式为:
total.png
你也有可能看到下面的计算公式,它是 样本方差 的计算方法:
sample.png
使用此方法的原因不在目前所学内容的范围内,但你可以在此 找到解释:
对于样本方差,之所以需要除以n-1
,是因为通常观测值会更加接近于样本均值而不是总体均值。也就是说通过样本均值计算出来的标准差低估了总体的标准差。用n-1
而不是n
作为除数,目的是使得计算出来的结果大一些,从而能纠正偏差。
注意到,当n
越大,纠正的比例就越小,这正是我们想要的,n
越大,样本均值就越能很好的估计总体均值。
The standard deviation calculated with a divisor of 𝑛−1 is a standard deviation calculated from the sample as an estimate of the standard deviation of the population from which the sample was drawn. Because the observed values fall, on average, closer to the sample mean than to the population mean, the standard deviation which is calculated using deviations from the sample mean underestimates the desired standard deviation of the population. Using 𝑛−1 instead of 𝑛 as the divisor corrects for that by making the result a little bit bigger.
Note that the correction has a larger proportional effect when 𝑛 is small than when it is large, which is what we want because when n is larger the sample mean is likely to be a good estimator of the population mean.
- 分布的形状
数据的分布通常为以下三种形状:
- 右偏态
- 左偏态
- 对称分布(通常是正态分布)
根据与数据集的形状,某些集中趋势或离散程度度量可能更适用于概括我们的数据集。当我们的数据遵循正态分布时,我们可以使用均值和标准差完全理解我们的数据集。但是,如果我们的数据集是偏态分布,五数概括法(和关联的集中趋势度量)更适用于概括数据。
-
异常值
异常值对于均值度量的影响较大,而对中位数度量的影响较小。应该视情况处理异常值。常用技术包括:
- 至少注意到它们的存在并确定对概括统计的影响。
- 如果是输入错误 — 删除或改正
- 理解它们为何存在,以及对我们想要回答的关于数据的问题的影响。
- 当有异常值时,报告五数概括法的值通常能比均值和标准差等度量更好地体现异常值的存在。
- 报告时要小心。知道如何提出正确的问题。
分类变量
在分析分类变量时,我们通常只看一组数据属于一个分类的类别。例如,如果我们有两个狗的分类类别: 拉布拉多与非拉布拉多。我们可以说 32% 的狗为拉布拉多(百分比),也可以说 100 只狗中有 32 只是拉布拉多(计数)。
但是,与描述数值变量相关的四个方面不用于描述分类变量。
直方图和箱线图
可以使用直方图和箱线图来可视化数值数据。使用可视化方式比使用概括统计能使我们更容易地识别异常值和数据分布的形状。
描述统计
描述统计
是用来描述收集的数据。
推论统计
推论统计
在于使用我们收集的数据对更大的总体数据得出结论。
- 总体 —— 我们想要研究的整个群体。
- 参数 —— 描述总体的数值摘要
- 样本 —— 总体的子集
- 统计量 —— 描述样本的数值摘要
网友评论