美文网首页
数据分析基础|研究数据离散性

数据分析基础|研究数据离散性

作者: 70fa0b237415 | 来源:发表于2020-02-10 18:29 被阅读0次

    如果我们想要知道一组数据的离散性,我们该怎么做呢?比较常用的是方差标准差。除此之外我们还可以求出这组数据的5个统计量:最大值、最小值、3个四分位数,这5个数值也可以用来研究数据的离散性,将这5个数值画在图上就是我们常说的箱线图。
    四分位数与箱形图:以中位数为基准来表示数据的离散程度
    方差与标准差:以平均数为基数来表示数据的离散程度

    箱线图的概念

    箱线图(Boxplot)也称箱须图(Box-whisker Plot),是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较

    一个典型的箱线图如下图所示:

    箱线图

    理解箱线图的一个案例

    同一数轴上,几批数据的箱形图并行排列,几批数据的中位数、尾长、异常值、分布区间等形状信息便一目了然。在一批数据中,哪几个数据点出类拔萃,哪些数据点表现不及一般,这些数据点放在同类其它群体中处于什么位置,可以通过比较各箱形图的异常值看出。各批数据的四分位距大小,正常值的分布是集中还是分散,观察各方盒和线段的长短便可明了。每批数据分布的偏态如何,分析中位线和异常值的位置也可估计出来。

    下图是两组学生成绩画出的箱线图,从这幅图中我们可以得到如下结论:

    • A组学生成绩分布更均匀
    • B组学生成绩比A组间隔更大
    • B组中成绩在前50%的学生(方盒和线段长度很长),说明这部分学生分数差距很大,分布在40-100分之间
    • B组中成绩在后50%的学生(方盒和线段长度很短),说明这部分学生分数差距较小,分布在30-40分之间
    两组学生成绩箱线图

    参考链接

    1. https://wiki.mbalib.com/wiki/%E7%AE%B1%E7%BA%BF%E5%9B%BE
    2. https://baike.baidu.com/item/%E7%AE%B1%E5%BD%A2%E5%9B%BE
    3. 《写给所有人的极简统计学》

    相关文章

      网友评论

          本文标题:数据分析基础|研究数据离散性

          本文链接:https://www.haomeiwen.com/subject/qmfzxhtx.html