tidy流处理数据的方便,我想这与管道符%>% 的使用,数据处理动词化,有着很重要的关系。
自己之所以写这些,主要是考虑只有把东西讲出来,才能真正学会。通过笔记的形式,让自己真正把R数据处理的能力提高。
summarise()函数
其实我平时对这个函数的使用不是很多,主要是因为不太做数据归纳及归纳作图的事情。但是这个函数我觉得强大之处就是和group_by()函数连用。
elays <- flights %>%
group_by(dest) %>%
summarise(
count = n(),
dist = mean(distance, na.rm = TRUE),
delay = mean(arr_delay, na.rm = TRUE)
) %>%
filter(count > 20, dest != "HNL")
上面这段代码,用到了管道符 %>%, 可以理解为“then”(然后)这侧重于转换,而不是正在转换的内容,这使代码更易于阅读。而和group_by()结合,将一个整体数据分割成预想的数据样式,而不重新创建新的变量,减少内存的占用量。
count()用来总结数据,同时也可以再summarize里面创建新的变量。
相较于summarize函数,我个人平时使用频率高的主要是table()函数,只是单纯看一下数据的量的多少,个人习惯。
欢迎指正
网友评论