木东居士学习计划：第一周数据的描述性统计

作者: evanzh7 | 来源:发表于2019-07-21 12:58 被阅读0次

理论篇

数据的集中趋势
- 众数
  数据集合中出现次数最多的数为众数，可能不止一个数值。
- 中位数
  对于数据集合，按照从小到大或从大到小排列，
  如果集合数目为奇数个，排在中间的数字为中位数。
  如果集合数目为偶数个，排在中间的两位数的算术平均值为中位数。
- 平均数
  算术平均值：集合中所有数据相加处以集合中数值个数。
  几何平均值：
  有些几何内的数值不止有加减关系还有乘除关系，此时应该用到几何平均值。集合中数值为 $x_1,x_2...x_n$ ，且所有的值都大于0，公式为
  $\overline{x}_{j}=\sqrt[n]{x_{1} x_{2} \cdots x_{n}}$
  例如生产线上各步骤是顺承关系，最终产品的合格率应用为几何平均值。
- 分位数
  是指将一个随机变量的概率分布范围分为几个等份的数值点，常用的有中位数（即二分位数）、四分位数、百分位数等。
- 极差
  极差又被称为全距，是指数据集合中最大值与最小值的差值，表示整个数据集合能够覆盖的数值距离。全距的计算公式为：
  $R = x_{max}-x_{min}$
数据的离中趋势
- 数值型数据：
  - 方差: 方差利用平方克服了离差和等于0的问题，
    －局限性：方差的单位是数据单位的平方，夸大了数据集合的离散型。
    $\sigma^{2}=\frac{\sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2}}{N}$
  - 标准差: 因为方差的局限性，取方差的算术平方根作为描述离散程度的指标。
    $\sigma=\sqrt{\frac{\sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2}}{N}}$
  - 极差：极差又被称为全距，是指数据集合中最大值与最小值的差值，表示整个数据集合能够覆盖的数值距离。全距的计算公式为：
    $R = x_{max}-x_{min}$
  - 平均差: 也叫平均偏差。对于任意数据集合，数据集合中每个数值与算术平均值之间的偏差的绝对值，处以数据个数。
    $R_{a}=\frac{\sum_{i=1}^{n}\left|x_{i}-\overline{x}\right|}{n}$
  - 顺序数据：四分位差
    回顾知识点：中位数。
    引入知识点：一个集合的数，按照从小到大排序，排在四分之一位置的即为第一四分位数， $Q_1$ ，排在四分之二位置的即为第二四分位数 $Q_2$ ，也就是中位数，排在四分之三位置的即为第三四分位数 $Q_3$ 。
    引出知识点：四分位极差等于第一四分位数与第三四分位数的差值（ $Q_3－Q_1$ ）
  - 分类数据：异众比率
    是统计学当中研究现象离中趋势的指标之一。异众比率指的是总体中非众数次数与总体全部次数之比。换句话说，异众比率指非众数组的频数占总频数的比例。
    众数：是一组数据中出现次数最多数值。有时众数在一组数中有好几个。
    计算公式：
    $V_{m 0}=\frac{N-f_{m 0}}{N}$
    其中， $V_m0$ 表示异众比率， $f_m0$ 表示众数次数，N表示总体单位总数（即总体次数）。
  - 相对离散程度：离散系数
    也称为变异系数，数值为标准差相对于算术平均值的大小。
    适用场景：两个集合算术平均值不等，标准差相等，无法对比集合中数值的离散程度。
    总体变异系数公式：
    $V_{\sigma}=\frac{\sigma}{\mu}$
    样本变异系数：
    $V_{s}=\frac{s}{\overline{x}}$
    $\sigma$ 为总体标准差， $\mu$ 为总体平均值，
    $s$ 为样本标准差， $\overline{x}$ 为样本平均值。
  - 分布的形状：
    参考《统计学》作者：卢黎霞,董洪清主编
    - 偏态系数(Coefficient of Skewness)：
      根据未分组的原始数据计算偏态系数时，通常采用下面的公式：
      $\mathrm{SK}=\frac{\sum_{i=1}^{k}\left(\mathrm{x}_{i}-\overline{x}\right)^{3}}{\mathrm{n} \sigma^{3}}$
  $\overline{x}$ 为平均值
  $\sigma$ 为标准差

根据分组数据计算偏态系数的公式是：
$\mathrm{SK}=\frac{\sum_{i=1}^{k}\left(\mathrm{x}_{i}-\overline{x}\right)^{3} \mathrm{f}_{i}}{\sum_{i=1}^{n} \mathrm{f}_{i} \sigma^{3}}$
$f_i$ 为频次
偏态系数以平均值与中位数之差对标准差之比率来衡量偏斜的程度，用SK表示偏态系数:
1. 偏态系数小于0，因为平均数在众数之左，是一种左偏的分布，又称为负偏。
2. 偏态系数大于0，因为均值在众数之右，是一种右偏的分布，又称为正偏。
3. 偏态系数等于0即分布对称。

峰态系数（Coefficient of Kurtosis）：
它是指数据分布的平峰或尖峰程度，峰态通常与正态分布比较而言，

如果数据分布为标准正太分布，则峰态系数为0。
如果峰态系数大于0，则为尖峰分布。
如果峰态系数小于0，则为平峰分布。

峰态系数常用计算公式为：
$\mathrm{K}=\frac{\sum_{i=1}^{n}\left(\mathrm{x}_{\mathrm{i}}-\overline{\mathrm{x}}\right)^{4}}{\mathrm{n} \sigma^{4}}-3$

屏幕快照 2019-07-21 12.43.16.png

木东居士学习计划：第一周数据的描述性统计

理论篇

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

木东居士学习计划：第一周 数据的描述性统计

理论篇

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

木东居士学习计划：第一周数据的描述性统计