美文网首页
木东居士学习计划:第一周 数据的描述性统计

木东居士学习计划:第一周 数据的描述性统计

作者: evanzh7 | 来源:发表于2019-07-21 12:58 被阅读0次

    理论篇

    • 数据的集中趋势
      • 众数
        数据集合中出现次数最多的数为众数,可能不止一个数值。
      • 中位数
        对于数据集合,按照从小到大或从大到小排列,
        如果集合数目为奇数个,排在中间的数字为中位数。
        如果集合数目为偶数个,排在中间的两位数的算术平均值为中位数。
      • 平均数
        算术平均值:集合中所有数据相加处以集合中数值个数。
        几何平均值:
        有些几何内的数值不止有加减关系还有乘除关系,此时应该用到几何平均值。集合中数值为x_1,x_2...x_n,且所有的值都大于0,公式为
        \overline{x}_{j}=\sqrt[n]{x_{1} x_{2} \cdots x_{n}}
        例如生产线上各步骤是顺承关系,最终产品的合格率应用为几何平均值。
      • 分位数
        是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。
      • 极差
        极差又被称为全距,是指数据集合中最大值与最小值的差值,表示整个数据集合能够覆盖的数值距离。全距的计算公式为:
        R = x_{max}-x_{min}
    • 数据的离中趋势
      • 数值型数据:

        • 方差: 方差利用平方克服了离差和等于0的问题,
          -局限性 :方差的单位是数据单位的平方,夸大了数据集合的离散型。
          \sigma^{2}=\frac{\sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2}}{N}

        • 标准差: 因为方差的局限性,取方差的算术平方根作为描述离散程度的指标。
          \sigma=\sqrt{\frac{\sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2}}{N}}

        • 极差:极差又被称为全距,是指数据集合中最大值与最小值的差值,表示整个数据集合能够覆盖的数值距离。全距的计算公式为:
          R = x_{max}-x_{min}

        • 平均差: 也叫平均偏差。对于任意数据集合,数据集合中每个数值与算术平均值之间的偏差的绝对值,处以数据个数。
          R_{a}=\frac{\sum_{i=1}^{n}\left|x_{i}-\overline{x}\right|}{n}

        • 顺序数据:四分位差
          回顾知识点:中位数。
          引入知识点:一个集合的数,按照从小到大排序,排在四分之一位置的即为第一四分位数,Q_1,排在四分之二位置的即为第二四分位数Q_2,也就是中位数,排在四分之三位置的即为第三四分位数Q_3
          引出知识点:四分位极差等于第一四分位数与第三四分位数的差值(Q_3-Q_1

        • 分类数据:异众比率
          是统计学当中研究现象离中趋势的指标之一。异众比率指的是总体中非众数次数与总体全部次数之比。换句话说,异众比率指非众数组的频数占总频数的比例。
          众数:是一组数据中出现次数最多数值。有时众数在一组数中有好几个。
          计算公式:
          V_{m 0}=\frac{N-f_{m 0}}{N}
          其中,V_m0表示异众比率,f_m0表示众数次数,N表示总体单位总数(即总体次数)。

        • 相对离散程度:离散系数
          也称为变异系数,数值为标准差相对于算术平均值的大小。
          适用场景:两个集合算术平均值不等,标准差相等,无法对比集合中数值的离散程度。
          总体变异系数公式:
          V_{\sigma}=\frac{\sigma}{\mu}
          样本变异系数:
          V_{s}=\frac{s}{\overline{x}}
          \sigma为总体标准差,\mu为总体平均值,
          s为样本标准差,\overline{x}为样本平均值。

        • 分布的形状:
          参考《统计学》 作者:卢黎霞,董洪清主编

          • 偏态系数(Coefficient of Skewness):
            根据未分组的原始数据计算偏态系数时,通常采用下面的公式:
            \mathrm{SK}=\frac{\sum_{i=1}^{k}\left(\mathrm{x}_{i}-\overline{x}\right)^{3}}{\mathrm{n} \sigma^{3}}

        \overline{x}为平均值
        \sigma为标准差

    根据分组数据计算偏态系数的公式是:
    \mathrm{SK}=\frac{\sum_{i=1}^{k}\left(\mathrm{x}_{i}-\overline{x}\right)^{3} \mathrm{f}_{i}}{\sum_{i=1}^{n} \mathrm{f}_{i} \sigma^{3}}
    f_i为频次
    偏态系数以平均值与中位数之差对标准差之比率来衡量偏斜的程度,用SK表示偏态系数:
    1. 偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。
    2. 偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为正偏。
    3. 偏态系数等于0即分布对称。

    • 峰态系数(Coefficient of Kurtosis):
      它是指数据分布的平峰或尖峰程度,峰态通常与正态分布比较而言,
    1. 如果数据分布为标准正太分布,则峰态系数为0。
    2. 如果峰态系数大于0,则为尖峰分布。
    3. 如果峰态系数小于0,则为平峰分布。

    峰态系数常用计算公式为:
    \mathrm{K}=\frac{\sum_{i=1}^{n}\left(\mathrm{x}_{\mathrm{i}}-\overline{\mathrm{x}}\right)^{4}}{\mathrm{n} \sigma^{4}}-3

    屏幕快照 2019-07-21 12.43.16.png

    相关文章

      网友评论

          本文标题:木东居士学习计划:第一周 数据的描述性统计

          本文链接:https://www.haomeiwen.com/subject/ercplctx.html