美文网首页
数据也存在异常值,这避免不了

数据也存在异常值,这避免不了

作者: 爱子酱的猫 | 来源:发表于2019-04-15 22:40 被阅读0次

虽说物以类聚,人与群分,但在人群里面仍存在少部分的另类。

数据也是这样。我们通过分类、标签区分各类数据,但在这类数据里面,也可能存在另类的数据,我们通常叫它为异常值。

异常值有时会出现在最左端,有时也会出现在最右端。可无论在哪一段,异常值的存在总是会影响我们的最终判断。这也是为什么,在体育比赛中通常会用去头去尾的方法来计分,目的就是尽可能避免异常值对结果的影响。

那平时我们在处理数据的时候,应该怎样摆脱异常数据呢?总不能一个一个的去找极大值和极小值呗,那样的话效率就太低了。

别急,四分位数可以帮我们解决这个难题。

四分位数是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。换句话说,这三个数值将数据四等分,分别叫做下四分位数(Q1)、中位数(Q2)与上四分位数(Q3)。它们各自所在位置的求解公式为:Q_i=\frac{i \times n}{4}

如果最后的结果是个整数,那么该四分位数的位置就在这里。如何非整数,那么它的位置就向上取整。

若把四分位数放在数据图表中,和其联系最为紧密的是箱线图。如下

比如上面这个箱线图。中间的长方形既是我们说的箱体,它代表的是四分位数。箱体中间的横线代表中位数,最上面的代表着上四分位数,最下面的代表着下四分位数。

箱体上下伸出的垂直部分称为“触须”,表示数据的散布范围,最远点为1.5倍四分位间距,超出这个范围的即为异常值。

同时,我们也不难发现,在各个箱线图中,不仅箱线图的长短各不相同,而且每个箱线图的触须长短也不同。但它们均有着同一个意义:箱线图越长,全距越大,数据波动也就越大。

这里有个新词,叫全距。全距指的是某组数据中极大值与极小值的差值,代表的就是全距。

好了,最后来总结一下:

  1. 四分位数与箱线图联系最为紧密,而箱线图能帮我们定位到异常值并且直观的展示出来。
  2. 箱体上下伸出的垂直部分称为“触须”,表示数据的散布范围,最远点为1.5倍四分位间距(四分位间距=上四分位数 - 下四分位数),超出这个范围的即为异常值。
  3. 箱线图越长,全距越大,数据波动也就越大。

相关文章

  • 数据也存在异常值,这避免不了

    虽说物以类聚,人与群分,但在人群里面仍存在少部分的另类。 数据也是这样。我们通过分类、标签区分各类数据,但在这类数...

  • Python 异常值分析

    异常值分析是检验数据是否有录入错误以及含有不合常理的数据。忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数...

  • 异常值检查与处理

    异常值的定义: 异常值,即在数据集中存在不合理的值,又称离群点,如下所示: 异常值判别方法: 1.简单统计法 对属...

  • 我在努力的让自己觉得幸福

    生活中,避免不了的会发生让自己不开心的事情,也就避免不了负面情绪的存在。我不否认乐天派的存在,但我更相信多数...

  • 浅谈SQL--常用SQL语句

    日常开发中,避免不了要跟数据库打交道。也就避免不了要使用SQL语句对数据进行“增删改查”操作。那么现在就让我们来走...

  • 线程安全---锁

    前言 线程安全是IOS开发中避免不了的话题,随着多线程的使用,对于资源的竞争以及数据的操作都可能存在风险,所以有必...

  • Python自学之路-Excel模块的使用总结

    工作中经常和数据打交道,也避免不了使用Excel整理或者汇总一些数据,业务经常会给到一些excel,要求把这些数据...

  • 学习数据分析过程中需要掌握的一些概念

    异常值 异常值就是偏离样本整体数据的值,分为单变量和多变量异常值。 多变量异常值即出现在n维空间上的异常值。多变量...

  • 中有身浅述

    2016-08-27 所谓中有者,即舍此而未入彼,中间存在之身,乃意识所生也。——南怀瑾 生死之事,谁都避免不了,...

  • 数据库的左连接,右连接

    在做数据分析的时候,避免不了的问题就是数据连接 https://www.cnblogs.com/shenqiboy...

网友评论

      本文标题:数据也存在异常值,这避免不了

      本文链接:https://www.haomeiwen.com/subject/wfzywqtx.html