虽说物以类聚,人与群分,但在人群里面仍存在少部分的另类。
数据也是这样。我们通过分类、标签区分各类数据,但在这类数据里面,也可能存在另类的数据,我们通常叫它为异常值。
异常值有时会出现在最左端,有时也会出现在最右端。可无论在哪一段,异常值的存在总是会影响我们的最终判断。这也是为什么,在体育比赛中通常会用去头去尾的方法来计分,目的就是尽可能避免异常值对结果的影响。
那平时我们在处理数据的时候,应该怎样摆脱异常数据呢?总不能一个一个的去找极大值和极小值呗,那样的话效率就太低了。
别急,四分位数可以帮我们解决这个难题。
四分位数是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。换句话说,这三个数值将数据四等分,分别叫做下四分位数(Q1)、中位数(Q2)与上四分位数(Q3)。它们各自所在位置的求解公式为:。
如果最后的结果是个整数,那么该四分位数的位置就在这里。如何非整数,那么它的位置就向上取整。
若把四分位数放在数据图表中,和其联系最为紧密的是箱线图。如下
比如上面这个箱线图。中间的长方形既是我们说的箱体,它代表的是四分位数。箱体中间的横线代表中位数,最上面的代表着上四分位数,最下面的代表着下四分位数。
箱体上下伸出的垂直部分称为“触须”,表示数据的散布范围,最远点为1.5倍四分位间距,超出这个范围的即为异常值。
同时,我们也不难发现,在各个箱线图中,不仅箱线图的长短各不相同,而且每个箱线图的触须长短也不同。但它们均有着同一个意义:箱线图越长,全距越大,数据波动也就越大。
这里有个新词,叫全距。全距指的是某组数据中极大值与极小值的差值,代表的就是全距。
好了,最后来总结一下:
- 四分位数与箱线图联系最为紧密,而箱线图能帮我们定位到异常值并且直观的展示出来。
- 箱体上下伸出的垂直部分称为“触须”,表示数据的散布范围,最远点为1.5倍四分位间距(),超出这个范围的即为异常值。
- 箱线图越长,全距越大,数据波动也就越大。
网友评论