美文网首页
基础统计学(2) 集中趋势和分散度的测量

基础统计学(2) 集中趋势和分散度的测量

作者: Best_Scenery | 来源:发表于2019-08-03 11:01 被阅读0次

    1.04 Mode, median and mean

    mode(众数):

    集合中数量出现最多的数,一般用于用于定类变量和定序变量测量

    一个集合中可能会有多个众数

    median(中位数):

    数量为奇数的集合中的元素顺序排列,排在中间的数;

    3,3,4,5,6,8,9
    以上集合的中位数为5
    

    数量为偶数的集合中的元素顺序排列,排在中间的2个数的和除以2

    3,3,4,5,6,8 
    以上集合的中位数为 (4+5)/2=4.5
    

    mean(平均数):
    \overline x = \frac {\sum x} {n}
    什么时候用哪种方法来测量集合的集中趋势呢? 根据测量级别

    分类变量:

    使用mode(众数)

    定量变量:

    使用median(中位数)或mean(平均数).

    如果集合中有影响数值的异常值(特别大或特别小),或者是偏态分布,使用median(中位数)

    其他时候用平均数

    1.05 Range, interquartile range and box plot

    这些指标是用来测量数据离散情况

    range(范围误差): 最大值(max) - 最小值(min)

    interquartile(四分距): IQR = Q3-Q1

    IQR.jpg

    上图是从基础统计学授课视频中截取出来的

    其中Q2是集合的中位数,Q1是Q2左边数据集合的中位数,Q3是Q2右边数据集合的中位数

    IQR(四分距)的值 = Q3-Q1的值

    这里还涉及到异常值的计算,小于某值的数据(特别小的数据),大于某值的数据(特别大的数据)

    小值的临界点 Q1 - 1.5*(IQR) , 小于该值的数被当做异常值(统计时忽略)

    大值的临界点Q3 + 1.5*(IQR), 大于该值的数被当做异常值(统计时忽略)

    box plot(箱型图):

    箱型图很好的描述了数据的集中性、离散度以及异常值

    BoxPlot.jpg
    • 中间的箱体表示IQR(四分距),箱体中的线表示中位数
    • 两边的须表示异常值的上下两端(数据能达到的范围)
    • 须的下端为比Q1-1.5IQR大的最小值,上例中位0
    • 须的上端为比Q1+1.5IQR小的最大值,上例中位27.7

    1.06 Variance and standard deviation(方差和标准差)

    Variance(方差):
    S^2 = \frac {\displaystyle \sum(x - \overline x)^2} {n-1}
    Standard deviation(标准差): 表示数据与平均值的平均距离
    S = \sqrt {\frac {\displaystyle \sum(x - \overline x)^2} {n-1} }
    方差和标准差同样是用来测量数据的可变度的,他们数值越大,离散度、变化度就越大。

    1.07 Z-scores(Z分数)

    某个数与平均数的差有多少个标准差就是这个数的Z分数(Z-scores)
    Z = \frac {x - \overline x} {s}

    s 为标准差

    集合中所有数据的Z-scores之和为0

    贝尔曲线(正态)分布图:

    bell_distrubution.jpg

    上图特征:

    • 1个标准差(Z-scores=1)范围内的数值占比68%
    • 2个标准差(Z-scores=2)范围内的数值占比95%
    • 3个标准差(Z-scores=3)范围内的数值占比99%

    若向右倾斜(右侧大量异常数据),或左倾斜(左侧大量异常数据)分布图满足以下特点

    • 2个标准差(Z-scores=2)范围内的数值占比至少75%
    • 3个标准差(Z-scores=3)范围内的数值占比89%

    Z-score是对变量的一种标准化。让我们很容易地观察一个数据是普遍的还是异常的.

    相关文章

      网友评论

          本文标题:基础统计学(2) 集中趋势和分散度的测量

          本文链接:https://www.haomeiwen.com/subject/bxfjdctx.html