美文网首页
处理因子的一些函数

处理因子的一些函数

作者: 新云旧雨 | 来源:发表于2019-12-16 23:45 被阅读0次

    笔记说明

    在R中,分类变量一般以因子(factor)的形式存在。forcats包是一个专门用于处理因子(factor)的r包,现在也成为了tidyverse的核心包之一。
    本次笔记介绍处理因子的一些函数,不全都是forcats包里的。
    笔记中很多内容来自https://b-rodrigues.github.io/modern_R/descriptive-statistics-and-data-manipulation.html#section

    推荐阅读:
    关于factor:https://r4ds.had.co.nz/factors.html
    关于forcats包:https://cran.r-project.org/web/packages/forcats/vignettes/forcats.html

    用factor()生成因子

    factor()是R自带的函数,用于生成因子。例如:sex_raw是表示性别的变量,,0代表女性,1代表男性。用factor()为其进行编码:

    # 生成factor
    sex_raw <- c(1,0,1,0,0,1,1)
    (sex <- factor(sex_raw,levels = c(0:1), labels = c("女", "男")))
    
    ## [1] 男 女 男 女 女 男 男
    ## Levels: 女 男
    

    sex变量赋值的那行代码外围加了括号是一个小技巧,其效果是进行赋值操作后立即显示变量内容,这样就不用为了查看赋值结果再写一遍sex并运行。
    注意在factor()levels=的内容和labels=的内容顺序是对应的。

    示例数据准备

    farcats现在已经是tidyverse的核心包之一了。加载tidyverse时就会自动加载farcats

    library(tidyverse)
    
    ## -- Attaching packages ---------------------------------- tidyverse 1.2.1 --
    ## √ ggplot2 3.2.0     √ purrr   0.3.2
    ## √ tibble  2.1.3     √ dplyr   0.8.3
    ## √ tidyr   1.0.0     √ stringr 1.4.0
    ## √ readr   1.3.1     √ forcats 0.4.0
    ## -- Conflicts ------------------------------------- tidyverse_conflicts() --
    ## x dplyr::filter() masks stats::filter()
    ## x dplyr::lag()    masks stats::lag()
    

    我们使用forcats包自带的示例数据gss_cat

    data(gss_cat)  
    head(gss_cat)
    
    ## # A tibble: 6 x 9
    ##    year marital         age race  rincome        partyid            relig              denom            tvhours
    ##   <int> <fct>         <int> <fct> <fct>          <fct>              <fct>              <fct>              <int>
    ## 1  2000 Never married    26 White $8000 to 9999  Ind,near rep       Protestant         Southern baptist      12
    ## 2  2000 Divorced         48 White $8000 to 9999  Not str republican Protestant         Baptist-dk which      NA
    ## 3  2000 Widowed          67 White Not applicable Independent        Protestant         No denomination        2
    ## 4  2000 Never married    39 White Not applicable Ind,near rep       Orthodox-christian Not applicable         4
    ## 5  2000 Divorced         25 White Not applicable Not str democrat   None               Not applicable         1
    ## 6  2000 Married          25 White $20000 - 24999 Strong democrat    Protestant         Southern baptist      NA
    

    用tabyl()查看频数分布

    对于分类变量,频数分布表是一个查看变量情况的不错的方法。可以使用R自带的table(),这里我们使用janitor包中的tabyl()

    library(janitor)
    tabyl(gss_cat$marital)
    
    ## gss_cat$marital     n      percent
    ##        No answer    17 0.0007913234
    ##    Never married  5416 0.2521063166
    ##        Separated   743 0.0345854862
    ##        Divorced  3383 0.1574733510
    ##         Widowed  1807 0.0841130196
    ##         Married 10117 0.4709305032
    

    用fct_recode()对faoctor进行重新编码

    factor变量内含有多个固定的水平(levels),可以用fct_recode()对factor变量的水平进行重编码:

    gss_cat <- gss_cat %>%
      mutate(marital = fct_recode(marital,
                                  refuse = "No answer",
                                  never_married = "Never married",
                                  divorced = "Separated",
                                  divorced = "Divorced",
                                  widowed = "Widowed",
                                  married = "Married"))
    gss_cat %>%
      tabyl(marital)
    
    ##        marital     n      percent
    ##         refuse    17 0.0007913234
    ##  never_married  5416 0.2521063166
    ##       divorced  4126 0.1920588372
    ##        widowed  1807 0.0841130196
    ##        married 10117 0.4709305032
    

    注意在进行重编码时将原来的"Separated"和"Divorced"都重编为"divorced",实现了对原始水平的合并。

    用fct_lump()合并占比小的水平

    看上面的频数分布情况,"refuse"和"widowed"这两个水平占比都小于10%,可以用fct_lump()把占比小于特定比例的水平全合并到一起:

    gss_cat <- gss_cat %>%
      mutate(marital = fct_lump(marital, prop = 0.10, other_level = "other"))
    
    gss_cat %>%
      tabyl(marital)
    
    ##        marital     n    percent
    ##  never_married  5416 0.25210632
    ##       divorced  4126 0.19205884
    ##        married 10117 0.47093050
    ##          other  1824 0.08490434
    

    做频数分布条形图以及用fct_reorder()对水平进行排序

    tabyl()的结果也是一个tibble对象,可以对其生成的频数分布数据做频数分布条形图:

    gss_cat %>%
      tabyl(marital) %>%
      ggplot() +
      geom_col(aes(y = n, x = marital)) +
      coord_flip()
    

    做这种条形图时我们希望各水平能按照频数的大小顺序排列,fct_reorder()在这种作图中就很有用:
    gss_cat %>%
      tabyl(marital) %>%
      mutate(marital = fct_reorder(marital, n, .desc = FALSE)) %>%
      ggplot() +
      geom_col(aes(y = n, x = marital)) +
      coord_flip()
    

    相关文章

      网友评论

          本文标题:处理因子的一些函数

          本文链接:https://www.haomeiwen.com/subject/ezfswctx.html