美文网首页
数据点处理问题

数据点处理问题

作者: MJades | 来源:发表于2020-04-23 00:01 被阅读0次

目的

我有一批数据,想看他们的相关性,计算相关性r后,发现相关性没有我自己想像中的好,所以我画了下散点图,发现有些异常值影响了r,所以🤔如何能更全面的展示这样的数据?

df<-data.frame(set12$RatioMC.x, set12$RatioMC.y)
ggplot(df,aes(x=df[,1],y=df[,2]))+
  geom_point(alpha=1,colour="#FFA54F",size=1)+
  labs(x="Set 1",y="Set 2",title=c("Pearson’s correlation test of Set1 and Set2"))+
  theme(axis.title = element_text(size = 7), plot.title = element_text(size=7))+
  annotate("text", x = 1, y = 5, label =paste("r =", round(cor(df[1,2],2)), colour="black", size=4)
原始数据点

可执行方案

  • 从数据上做调整
  1. 做log转换
df<-data.frame(log2(set12$RatioMC.x), log2(set12$RatioMC.y))
log转换
  1. 去除异常点,注意,通过设置xlim,ylim只是溢出的数据点不再显示,但数据本身没发生变化,所以r没有变化,如果想让r自动更改,最好去数据里做调整。


    设置xlim和ylim
  • 从绘图上更改, 将问题转化为:处理数据遮盖绘制问题

可选方案很多,比如设置点中空,像素点或者通过设置透明度来处理

shape与alpha参数

转为二维核密度估计问题
数据点分箱,计算每个箱内点的数目或其他统计变换

 ggplot(df,aes(x=df[,1],y=df[,2]))+
  geom_point(alpha=1,colour="#FFA54F",size=1)+
  geom_abline(slope = 1,intercept = 0,linetype="dashed")+
  #geom_density2d()+
  #stat_density_2d(geom = "point", aes(size = after_stat(density)), n = 20, contour = FALSE)+
  #stat_density_2d(geom = "raster", aes(fill = after_stat(density)), contour = FALSE)+
  #stat_density_2d(geom = "tile", aes(fill = after_stat(density)), contour = FALSE)+
  #scale_fill_continuous(high="red2",low="blue4") #有fill可以此参数
  #geom_bin2d(bins=50)+
  #geom_hex()+
  #stat_density_2d(aes(fill = after_stat(level)), geom = "polygon")+
  stat_density2d(aes(alpha = ..density..), geom = "tile", contour = FALSE) +
  theme_bw()+
  xlim(-2,2)+
  ylim(-2,2)+
  labs(x="Set 1",y="Set 2",title=c("Pearson’s correlation test of Set1 and Set2"))+
  theme(axis.title = element_text(size = 7),plot.title = element_text(size=7))+
  annotate("text", x = -1.5, y = 2, label =paste("r =", round(cor(df)[1,2],2)),colour="black",size=4)
分箱子
其他

此外,发现了之前看上的一个图的绘制方法(具体内容后续再补充)

# Inspired by the image-density plots of Ken Knoblauch
cars <- ggplot(mtcars, aes(mpg, factor(cyl)))
cars + geom_point()
cars + stat_bin2d(aes(fill = after_stat(count)), binwidth = c(3,1))
cars + stat_bin2d(aes(fill = after_stat(density)), binwidth = c(3,1))
cars + stat_density(aes(fill = after_stat(density)), geom = "raster", position = "identity")
cars + stat_density(aes(fill = after_stat(count)), geom = "raster", position = "identity")
看上的图绘制方法

相关文章

  • 数据点处理问题

    目的 我有一批数据,想看他们的相关性,计算相关性r后,发现相关性没有我自己想像中的好,所以我画了下散点图,发现有些...

  • 3N算法(Nature Nearest Neighbor)

    函数返回结果:第一个元素:每一个数据点的邻居数(被其他数据点的邻域覆盖的次数,即“密度”)第二个元素:每一个数据点...

  • 据点

    能彻底放下,才能有全新的开始 不要在憧憬未来的同时又留恋不舍过去 徘徊,彷徨 彳亍在纠结的情绪间,是对自己的不负责...

  • 【据点】

    朝著目標進發就是努力的最佳依據有路沒有直接還是迂迴已不是問題 只要集中與專注發展的深度寬度與高度便在掌握 發力吧即...

  • 再见 据点

    我不想来长长久久了。自打毕业作品开始,感觉这里都成了一个令人发指的据点,到长长久久来就意味着毕业作品还没有搞定。而...

  • 收藏据点

    爱因斯坦相对论:相对论本身对业余选手并没有直接的价值,但是如果你能重复一遍物理学家心中的纠结,感受一点科学发...

  • 多维标度法

    多维标度法(Multidimensional Scaling),是一种维数缩减方法,把高维的数据点映射到一个低维的...

  • 异常值检测算法--孤立森林(Isolation Forest)

    算法 该方法是一维或多维特征空间中大数据集的非参数方法,其中的一个重要概念是孤立数。孤立数是孤立数据点所需的拆分数...

  • 统计量总结

    集中趋势统计量 均值(Mean,算术平均值) 所有数据点的和除以数据点的总数。 中位数(Median) 数据点排序...

  • 数据点时代

    过去的人们:  你们好!当你们看到这封信时,请不要诧异。我来自你们的未来,我通过近代史学习了解到你们,你们那个年代...

网友评论

      本文标题:数据点处理问题

      本文链接:https://www.haomeiwen.com/subject/ccxiihtx.html