学习小组day6笔记-蒋1xu

作者: 蒋1Xu | 来源:发表于2020-03-04 21:04 被阅读0次

    镜像设置

    1. 编辑文件file.edit('~/.Rprofile')
    2. 设置镜像options("repos"=c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))清华源
      options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
      中科大源
      保存重启
    3. 查询 options()repos 或者options()BioC_mirror

    安装加载

    install.packages("dplyr")
    library(dplyr)
    install.packages(“包”)/BiocManager::install(“包”)。取决于你要安装的包存在于CRAN网站还是Biocductor

    dplyr的五个基础函数

    mutate(test, new= Sepal.Length*Sepal.Width)
    #新建列
    select(test,1)
    #按列号筛选第一列
    select(test,c(1,5))
    #筛选第1,5列
    select(test,Sepal.Length)
    #按列名筛选
    select(test,Petal.Length,Petal.Width)
    vars<-c("Petal.Length","Petal.Width")
    select(test,one_of(vars))
    #筛选这两列中所有的向量
    filter(test, Species=="setosa")
    #筛选行
    filter(test, Species=="setosa"&Sepal.Length>5)
    #筛选行,并且向量大于5
    filter(test, Species%in%c("setosa","versicolor"))
    #筛选这两行,并不是行名哦
    arrange(test,Sepal.Length)
    #按这一列大小排序,从小到大
    arrange(test,desc(Sepal.Length))
    #desc来从大到小
    summarise(test, mean(Sepal.Length), sd(Sepal.Length))
    #计算这列的平均值和标准差
    summarise(group_by(test, Species), mean(Sepal.Length), sd(Sepal.Length))
    #按照species来分组,计算每组SL的平均数和标准差
    

    dplyr两个实用技能

    1. 管道操作 %>% (cmd/ctr+shift+m)
      test %>%
      group_by(Species)%>%
      summarise(mean(Sepal.Length), sd(Sepal.Length))
    2. count统计某列的unique值
      count(test,Species)

    dplyr处理关系数据

    • 内连 inner_join 取交集
    • 左连 left_join(test1,test2,by='x')
    • 全连 full_join(test1,test2,by='x')
    • 半连接 semi_join(x=test1, y=test2, by='x') 返回能够与y匹配的x
    • 反连接 anti_join(x=test1, y=test2, by='x') 返回不能与y匹配的x
    • 简单合并 bind_row(test1,test2) 合并行,要求列数相同
      bind-col(test1,test2) 合并列,要求行数相同

    相关文章

      网友评论

        本文标题:学习小组day6笔记-蒋1xu

        本文链接:https://www.haomeiwen.com/subject/uivilhtx.html