美文网首页
R语言:统计直方图和核密度估计图

R语言:统计直方图和核密度估计图

作者: 鲨瓜 | 来源:发表于2023-01-25 08:51 被阅读0次

    一、前言

    统计直方图也叫频数分布直方图。图形类似柱形图,却与柱形图有着完全不同的作用,主要用于观察连续型变量的分布情况。

    统计直方图的作用如下:

    1. 显示各组频数或数据分布情况;
    2. 比较各组之间频数或数量的差异;
    3. 观察数据的集中趋势;
    4. 识别数据的异常情况。

    核密度估计图是统计直方图的变种,通过平滑曲线绘制连续型变量的分布。相较于统计直方图,核密度估计图能更好地刻画连续型变量的分布形状。核密度估计图的作用与统计直方图一致。

    1.1 统计直方图-示例

    文献来源 原始图片

    1.2 核密度估计图-示例

    文献来源 原始图片

    二、R包

    本期使用的R包主要有3个:

    • tidyverse包:最常用的集成包;
    • gWQS包:提供演示数据;
    • ggsci包:提供绘图颜色。
    library(tidyverse)
    library(gWQS)
    library(ggsci)
    

    三、演示数据

    演示数据简介:gWQS包中有一个内置数据集,内置数据集的名称叫wqs_datawqs_data数据集有34种多环芳烃暴露数据、25种邻苯二甲酸酯暴露数据和其他类型数据。

    本期仅使用wqs_data数据集的前5种多环芳烃暴露数据性别

    3.1 单数据系列数据

    # PCBs name
    PCBs_name <- c("LBX074LA","LBX099LA","LBX105LA","LBX118LA","LBX138LA")
    # get the first 5 PCBs exposure data and sex
    PCBs <- wqs_data[c(PCBs_name,"sex")]
    # get PCBs' absolute value
    PCBs[PCBs_name] <- abs(PCBs[PCBs_name])
    # view PCBs data
    head(PCBs)
    

    四、R语言实现

    4.1 单数据系列统计直方图

    # draw plot
    ggplot()+
        # geometric layer
        geom_histogram(data=PCBs,mapping=aes(x=LBX074LA),
                                     bins=30,color="black",fill=pal_npg("nrc")(1))+
        # theme adjustment
        theme_light()+
        theme(axis.text=element_text(color="black"))
    

    4.2 多数据系列统计直方图

    # draw plot
    ggplot()+
        # geometric layer
        geom_histogram(data=PCBs,mapping=aes(x=LBX074LA,fill=sex),
                                     bins=30,color="black",position="identity")+
        # visual mapping
        scale_fill_manual(name="Sex",labels=c("Men","Women"),values=pal_npg("nrc")(10))+
        # theme adjustment
        theme_light()+
        theme(axis.text=element_text(color="black"))
    

    4.3 单数据系列核密度估计图

    # draw plot
    ggplot()+
        # geometric layer
        geom_density(data=PCBs,mapping=aes(x=LBX074LA),
                                color="black",fill=pal_npg("nrc")(1))+
        # theme adjustment
        theme_light()+
        theme(axis.text=element_text(color="black"))
    

    4.4 多数据系列核密度估计图

    # draw plot
    ggplot()+
        # geometric layer
        geom_density(data=PCBs,mapping=aes(x=LBX074LA,fill=sex),
                                     color="black",alpha=0.8,position="identity")+
        # visual mapping
        scale_fill_manual(name="Sex",labels=c("Men","Women"),values=pal_npg("nrc")(10))+
        # theme adjustment
        theme_light()+
        theme(axis.text=element_text(color="black"))
    

    五、结果解读

    NHANES数据库中多环芳烃的编码与对应名称。

    编码 多环芳烃
    LBX074LA PCB74
    LBX099LA PCB99
    LBX105LA PCB105
    LBX118LA PCB118
    LBX138LA PCB138

    PCB74在男性和女性尿液中的分布均属于右偏型分布。

    本文由mdnice多平台发布

    相关文章

      网友评论

          本文标题:R语言:统计直方图和核密度估计图

          本文链接:https://www.haomeiwen.com/subject/lhmrhdtx.html