去除箱线图中的outliers

作者: 生信编程日常 | 来源:发表于2020-12-22 14:43 被阅读0次

异常值outlier:指样本中的个别值,其数值明显偏离它(或他们)所属样本的其余观测值,也称异常数据,离群值。当遇到一组数据中有少量outliers,一般是需要剔除,避免对正确的结果造成干扰。我们可以通过箱线图来检测并去除outliers.
箱线图可以通过5个数来概括:最小值,最大值,下四分位(Q1,在25%位置),上四分位(Q3,在75%位置),中位值(50%位置)。箱线图能够显示离群点,可以通过IQR(InterQuartile Range,四分位距即Q3-Q1)计算得到。该离群点定义为异常值被定义为小于Q1-1.5IQR或大于Q3+1.5IQR的值。
UpperLimit=Q3+1.5IQR=75%分位数+1.5(75%分位数-25%分位数)
LowerLimit=Q1-1.5IQR=25%分位数 - 1.5(75%分位数-25%分位数)
即在UpperLimit与LowerLimit之外的值为outlier。


创建data.frame

element <- sample(letters[1:3], 1e3, replace=T)
value <- rnorm(1e3)
df <- data.frame(element, value)
head(df)

查看是否有离群值

ggplot(df, aes(x=element, y=value,color=element)) + 
  geom_boxplot(outlier.colour="red", outlier.shape=7,outlier.size=1)

因此,存在离群值(红色的方点),下面去除离群值。
首先定义一个函数,将outliers替换成NA。

remove_outliers <- function(x, na.rm = TRUE, ...) {
  qnt <- quantile(x, probs=c(.25, .75), na.rm = na.rm, ...)
  H <- 1.5 * IQR(x, na.rm = na.rm)
  y <- x
  y[x < (qnt[1] - H)] <- NA
  y[x > (qnt[2] + H)] <- NA
  y
}

删除含有outliers(NA)的行

library(dplyr)
df2 <- df %>%
  group_by(element) %>%
  mutate(value = remove_outliers(value))
df2<-df2[complete.cases(df2),]

查看删除离群值之后的boxplot,可以看到大部分离群值已去除。

ggplot(df2, aes(x=element, y=value,color=element)) + 
  geom_boxplot(outlier.colour="red", outlier.shape=7,outlier.size=1)

参考:https://www.jianshu.com/p/80848dfb0ec8

相关文章

  • 去除箱线图中的outliers

    异常值outlier:指样本中的个别值,其数值明显偏离它(或他们)所属样本的其余观测值,也称异常数据,离群值。当遇...

  • N种箱线图的画法

    图中标示了箱线图中每条线和点表示的含义,其中应用到了分位数的概念线的主要包含五个数据节点,将一组数据从大到小排列,...

  • What are methods to make a predi

    Outliers Handling: Remove Outliers as many as possible. (...

  • BoxPlot的离群值(Outliers)

    数据分析之 – 离群值(Outliers) 一:什么是Outliers Outliers是统计学专业术语,是指相比...

  • 百度地图

    //去除底图中的图标,防止干扰 效果: 添加自定义标注

  • Outliers

    《异类outliers》这本书,今天利用早到办公室的时间和中午饭后的时间看了会,目前只看了大约三分之一,但真的让人...

  • 無標題筆記

    # OUTLIERS ## 测试 ### 测试

  • R语言去除背景色及网格线

    1.绘制散点图 2.去除背景色 3.去除网格线

  • “更改纤”是让归属地资源自己改2019-01-31

    如图 让归属地的资源部自己改,包括光交箱(图中的GJ)、光分(图中的GF)的更改

  • 阅读 outliers

    kindle一直放在枕边,每次睡觉前翻几页,也不紧不慢的把这本书看完了。第一次尝到了细水长流的滋味,有点说不出的感...

网友评论

    本文标题:去除箱线图中的outliers

    本文链接:https://www.haomeiwen.com/subject/lnwjnktx.html