美文网首页R for data science
dplyr1.0.0 重点内容 across()、slice_*

dplyr1.0.0 重点内容 across()、slice_*

作者: 热衷组培的二货潜 | 来源:发表于2020-06-06 22:46 被阅读0次

    title: "dplyr1.0.0 重点内容"
    author: "qliu"
    date: "2020/6/5"
    output: html_document


    翻译链接为:
    My Favorite dplyr 1.0.0 Features

    加载包和数据

    # install.packages("AmesHousing")
    library(AmesHousing)
    library(tidyverse)
    
    ames_data <- make_ames() %>%
      janitor::clean_names() %>%
      select(sale_price, bsmt_fin_sf_1, first_flr_sf, 
             total_bsmt_sf, neighborhood, gr_liv_area)
    
    head(ames_data)
    

    across()


    所有 *_if()、 *_at()、 *_all() 变体函数都已经被 across() 函数所取代,使得所有列进行相同操作更为便捷。

    # 构造函数
    
    feet_to_yards <- function(x) {x / 9}
    
    # 之前版本的 mutate_at() 函数
    
    ames_data %>%
      mutate_at(.vars = vars(contains("_sf") | contains("area")) , .funs = feet_to_yards)
    
    
    # across() 函数实现
    ames_data %>%
      mutate(across(.cols = c(contains("_sf") | contains("area")) , .funs = feet_to_yards)) %>%
      head()
    

    across(where()) 取代 mutate_if()

    ames_data %>% 
      mutate_if(is.numeric, log)
    
    ames_data %>% 
      mutate(across(where(is.numeric), log)) %>%
      head()
    

    across(where())summarise() 函数

    summarise() 函数中参数 .names = "mean_{col}" 可以指定新增的列名,比如这里为函数 mean + 原本列名

    ames_data %>%
      group_by(neighborhood) %>%
      summarise(across(where(is.numeric), mean, .names = "mean_{col}")) %>%
      head()
    
    ames_data %>%
      mutate(across(where(is.integer) & ends_with("_sf"), as.double))
    

    我们可以看到非 integer 且 不是以 _sf 结尾的列,并没有转变为 double 数据类型,比如:gr_liv_area 列虽然为 integer 但是处理后仍为 double

    across(everything()) 取代 mutate_all()

    ... 等等

    slice()

    top_n()、 sample_n()、 sample_frac() 这三个函数已经被 slice 新增的子函数所替代

    不推荐继续使用这三个函数的原因

    • top_n():有一个令人困惑的名称,可以合理地认为它过滤了最小或最大的行。比如,我们有田径赛记录圈数的数据。我们可以合理地假设 top_n() 返回的时间是最快的,但实际上它们返回的时间是最长的。top_n() 已被 slice_min()slice_max() 取代。

    • sample_n()sample_frac():被整合到函数 slice_sample() 一个中,分别被参数 slice_sample(n=4)slice_sample(prop = 0.002) 取代,更容易记住。

    此外,slice_head()slice_tail() 可以提取数据第一行和最后一行

    ames_data %>% 
      top_n(n = 5, wt = sale_price)
    #->
    ames_data %>% 
      slice_max(sale_price, n = 5)
    #->
    ames_data %>% 
      slice_min(sale_price, n = 5)
    
    #########################################
    ames_data %>% 
      sample_n(4)
    # ->
    ames_data %>% 
      slice_sample(n = 4)
    
    #########################################
    ames_data %>% 
      sample_frac(0.002)
    #->
    ames_data %>% 
      slice_sample(prop = 0.002)
    

    nest_by()

    nest_by() 与函数 group_by() 类似,只是 nest_by() 分组后每一组存储为一个 list 文件。

    group_by() + summarise()

    ames_data %>%
      group_by(neighborhood) %>%
      summarise(avg_sale_price = mean(sale_price)) %>%
      ungroup() %>%
      head()
    

    summarise() 常常与 group_by() 连用,特别是在统计函数的输出是单个数值的情况下。但是如果我们想对分组的行执行更复杂的操作呢? 比如线性模型。为此,我们可以使用 nest_by(),它将分组的数据存储为名为 data 的新列中的列表,而不是元数据。

    nested_ames <- ames_data %>%
      nest_by(neighborhood) 
    
    head(nested_ames)
    

    我们可以看到,与 group_by() 函数不同,nest_by() 是改变了原来数据得数据结构。当我们希望将模型应用于嵌套数据的每一行时,此功能非常有用。

    nested_ames_with_model <- nested_ames %>%
      mutate(linear_model = list(lm(sale_price ~ gr_liv_area, data = data)))
    
    head(nested_ames_with_model)
    

    需要注意的是,模型必须向量化,这是使用 list() 执行的转换。

    north_ames_model <- nested_ames_with_model %>%
      filter(neighborhood == "North_Ames") %>%
      pull(linear_model)
    
    north_ames_model
    

    该模型显示,每增加一平方英尺,位于埃姆斯北部社区的一套房子预计将多卖 54.61 美元。

    mutate() 函数中新增的参数

    • .keep

    可以看到输出结果中,仅保存了所有到的列,而非之前输出所有列,有点类似与 tranmute() 函数

    ames_data %>% 
      mutate(sale_price_euro = sale_price / 1.1, .keep = "used") %>% 
      head()
    
    • .before.after

    控制新增列的排放位置

    ames_data %>% 
      mutate(
        sale_price_euro = sale_price / 1.1, .keep = "used", .before = sale_price
      ) %>% 
      head()
    

    总结:

    两个主要的变化是添加了 across()slice(),它们取代了旧的功能。使用 across() 可以很容易地以更直观、更一致的方式改变特定的列或行。slice() 对数据采样方法进行了类似的改进。新的 nest_by() 功能使得一些统计建模函数更加方便。另外此文这里没有列出的 rowwise() 函数结合 c_across() 可以使我们在 R 中对数据行水平层次进行操作更加方便,relocate() 函数能够使我们更加方便的控制感兴趣的列的顺序的调整,rename() 函数新增使用函数重新命名列名,总之这一次更新对于在 R 中进行数据更方便,看代码更为简明易懂。

    相关文章

      网友评论

        本文标题:dplyr1.0.0 重点内容 across()、slice_*

        本文链接:https://www.haomeiwen.com/subject/huuozhtx.html