学习小组Day7-沈荣

作者: SR荣寶 | 来源:发表于2020-12-17 23:38 被阅读0次
    1.镜像设置
    file.edit('~/.Rprofile')
    options("repos" = c(CRAN="[https://mirrors.tuna.tsinghua.edu.cn/CRAN/](https://mirrors.tuna.tsinghua.edu.cn/CRAN/)")) #对应清华源
    options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") #对应中科大源
    
    再运行
    options()$repos和options()$BioC_mirror
    

    即可

    2.R包的安装与加载
    ①安装(联网)
    install.packages(“包”)
    BiocManager::install(“包”)
    ②加载
    library(包);require(包)
    3.dplyr五个基本函数
    安装并加载dplyr
    mutate(),新增列
    新增列
    select(),按列筛选
    ①按列号筛选:select(变量名,列号),如select(test,1)
    ②按列名筛选:select(变量名,列名),如select(test, Petal.Length, Petal.Width)
    按列筛选

    one_of()函数:用来选择声明变量,即选择vars为变量。

    ③filter()筛选行:filter(变量名,所要筛选的行),如filter(test, Species == "setosa");filter(test, Species %in% c("setosa","versicolor"))
    筛选行
    ④arrange(),按某1列或某几列对整个表格进行排序:
    arrange(变量名,要排序的列名),如arrange(test, Sepal.Length),默认由小到大排序;arrange(test, desc(Sepal.Length)),这里用desc表示从大到小排序
    排序
    ⑤summarise():汇总
    summarise(变量名,要汇总的方式),如summarise(test, mean(Sepal.Length), sd(Sepal.Length)),mean:求平均值,sd:求标准差
    group_by():分组
    group_by(变量名,分组的列名),如group_by(test, Species)
    分组再汇总:如summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length)
    汇总
    4.dplyr两个实用技能
    ①%>% (cmd/ctr + shift + M):管道操作
    管道传参,即将左边的值传递给下一个函数
    管道传参
    ②count()统计某列的unique值
    count(变量名,列名),如count(test,Species)
    计算unique值
    5.dplyr处理关系数据:连接两个表格
    data.frame()函数建立表格
    內连inner_join,取交集
    内连
    左连left_join
    左连
    右连right_join
    右连
    全连full_join
    全连
    半连接:返回能够与y表匹配的x表所有记录semi_join,即返回重叠部分
    半连接
    反连接:返回无法与y表匹配的x表的所记录anti_join,即返回不重叠部分
    反连接
    简单合并
    bind_rows():需要两个数据框列数相同
    bind_cols():需要两个数据框行数相同
    简单合并

    否则:


    5.思维导图
    今天的合并数据稍微有些难理解,尚可尚可

    相关文章

      网友评论

        本文标题:学习小组Day7-沈荣

        本文链接:https://www.haomeiwen.com/subject/ioxtnktx.html