美文网首页统计分析方法R data manipulate
R for Data Science(笔记) ---数据变换(归

R for Data Science(笔记) ---数据变换(归

作者: 生信小鹏 | 来源:发表于2021-07-07 22:31 被阅读0次
    R for Data Science

    tidy流处理数据的方便,我想这与管道符%>% 的使用,数据处理动词化,有着很重要的关系。

    自己之所以写这些,主要是考虑只有把东西讲出来,才能真正学会。通过笔记的形式,让自己真正把R数据处理的能力提高。

    summarise()函数

    其实我平时对这个函数的使用不是很多,主要是因为不太做数据归纳及归纳作图的事情。但是这个函数我觉得强大之处就是和group_by()函数连用。

    elays <- flights %>% 
      group_by(dest) %>% 
      summarise(
        count = n(),
        dist = mean(distance, na.rm = TRUE),
        delay = mean(arr_delay, na.rm = TRUE)
      ) %>% 
      filter(count > 20, dest != "HNL")
    

    上面这段代码,用到了管道符 %>%, 可以理解为“then”(然后)这侧重于转换,而不是正在转换的内容,这使代码更易于阅读。而和group_by()结合,将一个整体数据分割成预想的数据样式,而不重新创建新的变量,减少内存的占用量。

    count()用来总结数据,同时也可以再summarize里面创建新的变量。

    相较于summarize函数,我个人平时使用频率高的主要是table()函数,只是单纯看一下数据的量的多少,个人习惯。

    欢迎指正

    相关文章

      网友评论

        本文标题:R for Data Science(笔记) ---数据变换(归

        本文链接:https://www.haomeiwen.com/subject/wnpaultx.html