美文网首页R可视化和ggplot2
《R数据可视化手册》学习笔记6---描述数据分布(3)简单密度图

《R数据可视化手册》学习笔记6---描述数据分布(3)简单密度图

作者: RSP小白之路 | 来源:发表于2023-10-04 15:13 被阅读0次

    写在前面。

    这篇文章对应原书的第6章,主要介绍一些描述数据分布的可视化图形。主要包括如下这些:

    • 直方图
    • 密度图
    • 频数多边形
    • 箱线图
    • 小提琴图
    • Wilkinson点图

    密度图

    核密度图也是很常用的一种反映数据分布的图形。

    简单密度图

    使用geom_density语句,映射一个连续型变量

    ggplot(data = faithful, aes(x = waiting))  + 
      geom_density()
    
    • 核密度图是基于样本数据进行总体分布的估计
    • 曲线的光滑程度取决于函数的带宽;带宽越大,曲线越光滑
    • 可以通过adjust进行设置,默认值为1
    ggplot(data = faithful, aes(x = waiting))  + 
      geom_line(stat = "density", adjust = 0.25, colour = "orangered")+
      geom_line(stat = "density")+
      geom_line(stat = "density", adjust = 2, colour = "lightblue")
    

    x轴的宽度也是自动分配的,这可能会造成边缘截断,因此可以自己手动设置:

    ggplot(data = faithful, aes(x = waiting))  + 
      geom_density(stat = "density", alpha = 0.25, colour = NA, fill = "blue")+
      geom_line(stat = "density") +
      xlim(35,105)
    

    将密度曲线叠加到直方图上,可以对观测值理论分布实际分布进行比较。

    注意,密度图的曲线下面积总是1,因此y值较小,因此,使用y=..density..减小直方图的标度

    ggplot(data = faithful, aes(x = waiting, y=..density..))  + 
      geom_histogram(fill = "cornsilk", colour = "grey60")+
      geom_density()+
      xlim(35,105)
    

    相关文章

      网友评论

        本文标题:《R数据可视化手册》学习笔记6---描述数据分布(3)简单密度图

        本文链接:https://www.haomeiwen.com/subject/gzkjvdtx.html