以R包dplyr为例,学习以下代码
首先安装dplyr,由于之前已经install.packages("tidyverse")
,而tidyverse包括R包dplyr,所以安装即library(tidyverse)
后dplyr也被安装了
1. 新增列,mutate,以iris数据集(简版)为例,首先赋予test为iris数据集(简版),然后mutate(test, new = Sepal.Length * Sepal.Width)
即新增了乘积的一列。
2. 按列筛选,select(test, )
,空白填名称、顺序都行
3. 按行筛选,例如filter(test, Species == "setosa")
,然后filter(test, Species == "setosa"&Sepal.Length > 5 )
进一步筛选,缩小范围
4. 按列对表格排序,arrange(test, Sepal.Length)
#默认从小到大排序,改变默认,则arrange(test, desc(Sepal.Length))#表示由大到小,desc即decend后退
5. 汇总,summarise(test, mean(Sepal.Length), sd(Sepal.Length))
计算Sepal.Length的平均值和标准差,也可以group_by(test, Species)
分亚之后在统计平均值和标准差
6. 统计某列的unique值,如count(test,Species)
7. 将几列数连接成表,如```test1 <- data.frame(x = c('b','e','f','x'),
z = c("A","B","C",'D'),
stringsAsFactors = F)```,包括内连接、左连接、右连接、全连接等几种形式,对映集合的几种形式,另外用```bind_rows(test1, test2)```,```bind_cols(test1, test3)```可以分别对列相同、行相同数的表格进行合并
网友评论