1.镜像设置
file.edit('~/.Rprofile')
options("repos" = c(CRAN="[https://mirrors.tuna.tsinghua.edu.cn/CRAN/](https://mirrors.tuna.tsinghua.edu.cn/CRAN/)")) #对应清华源
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") #对应中科大源
再运行
options()$repos和options()$BioC_mirror
即可
2.R包的安装与加载
①安装(联网)
install.packages(“包”)
BiocManager::install(“包”)
②加载
library(包);require(包)
3.dplyr五个基本函数

mutate(),新增列

select(),按列筛选
①按列号筛选:select(变量名,列号),如select(test,1)
②按列名筛选:select(变量名,列名),如select(test, Petal.Length, Petal.Width)

one_of()函数:用来选择声明变量,即选择vars为变量。
③filter()筛选行:filter(变量名,所要筛选的行),如filter(test, Species == "setosa");filter(test, Species %in% c("setosa","versicolor"))

④arrange(),按某1列或某几列对整个表格进行排序:
arrange(变量名,要排序的列名),如arrange(test, Sepal.Length),默认由小到大排序;arrange(test, desc(Sepal.Length)),这里用desc表示从大到小排序

⑤summarise():汇总
summarise(变量名,要汇总的方式),如summarise(test, mean(Sepal.Length), sd(Sepal.Length)),mean:求平均值,sd:求标准差
group_by():分组
group_by(变量名,分组的列名),如group_by(test, Species)
分组再汇总:如summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length)

4.dplyr两个实用技能
①%>% (cmd/ctr + shift + M):管道操作
管道传参,即将左边的值传递给下一个函数

②count()统计某列的unique值
count(变量名,列名),如count(test,Species)

5.dplyr处理关系数据:连接两个表格
data.frame()函数建立表格
內连inner_join,取交集

左连left_join

右连right_join

全连full_join

半连接:返回能够与y表匹配的x表所有记录semi_join,即返回重叠部分

反连接:返回无法与y表匹配的x表的所记录anti_join,即返回不重叠部分

简单合并
bind_rows():需要两个数据框列数相同
bind_cols():需要两个数据框行数相同

否则:

5.思维导图

网友评论