学习小组day6笔记-蒋1xu

作者: 蒋1Xu | 来源:发表于2020-03-04 21:04 被阅读0次

镜像设置

  1. 编辑文件file.edit('~/.Rprofile')
  2. 设置镜像options("repos"=c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))清华源
    options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
    中科大源
    保存重启
  3. 查询 options()repos 或者options()BioC_mirror

安装加载

install.packages("dplyr")
library(dplyr)
install.packages(“包”)/BiocManager::install(“包”)。取决于你要安装的包存在于CRAN网站还是Biocductor

dplyr的五个基础函数

mutate(test, new= Sepal.Length*Sepal.Width)
#新建列
select(test,1)
#按列号筛选第一列
select(test,c(1,5))
#筛选第1,5列
select(test,Sepal.Length)
#按列名筛选
select(test,Petal.Length,Petal.Width)
vars<-c("Petal.Length","Petal.Width")
select(test,one_of(vars))
#筛选这两列中所有的向量
filter(test, Species=="setosa")
#筛选行
filter(test, Species=="setosa"&Sepal.Length>5)
#筛选行,并且向量大于5
filter(test, Species%in%c("setosa","versicolor"))
#筛选这两行,并不是行名哦
arrange(test,Sepal.Length)
#按这一列大小排序,从小到大
arrange(test,desc(Sepal.Length))
#desc来从大到小
summarise(test, mean(Sepal.Length), sd(Sepal.Length))
#计算这列的平均值和标准差
summarise(group_by(test, Species), mean(Sepal.Length), sd(Sepal.Length))
#按照species来分组,计算每组SL的平均数和标准差

dplyr两个实用技能

  1. 管道操作 %>% (cmd/ctr+shift+m)
    test %>%
    group_by(Species)%>%
    summarise(mean(Sepal.Length), sd(Sepal.Length))
  2. count统计某列的unique值
    count(test,Species)

dplyr处理关系数据

  • 内连 inner_join 取交集
  • 左连 left_join(test1,test2,by='x')
  • 全连 full_join(test1,test2,by='x')
  • 半连接 semi_join(x=test1, y=test2, by='x') 返回能够与y匹配的x
  • 反连接 anti_join(x=test1, y=test2, by='x') 返回不能与y匹配的x
  • 简单合并 bind_row(test1,test2) 合并行,要求列数相同
    bind-col(test1,test2) 合并列,要求行数相同

相关文章

网友评论

    本文标题:学习小组day6笔记-蒋1xu

    本文链接:https://www.haomeiwen.com/subject/uivilhtx.html