学习小组Day6笔记-君君

作者: 喵喵喵_dadb | 来源:发表于2020-10-18 01:45 被阅读0次

R包的学习

R包的安装与加载

1.镜像设置-教程

  • 高级模式:R的配置文件.Rprofile

2.安装

  • 存在于CRAN网站的包安装命令install.packages(“包”)
  • 存在于Bioconductor网站的包安装命令 BiocManager::install(“包”)

3.加载

  • library(某个包)require(包),这两个命令均可。

so 安装加载流程:

options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) 
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") 
install.packages("dplyr")
library(dplyr)

dplyr包的用法

5个基础函数

  1. mutate()--新增列。
    括号里面去定义新增哪个数据框里面的内容,后用逗号隔开,定义该新函数应该是以何种运算来出现。如:mutate(test,new=ab),那么新的一列就是以ab来计算得到的。
  2. select()--按列筛选。
  • 按列号筛选:select(test,1)-选择test表的第一列,select(test,c(1,5))-选择test表的第1列和第5列。
  • 按列名筛选:select(test, Petal.Length, Petal.Width)-选择test表表头为Petal.Length和Petal.Width的那列。
  1. filter()--筛选行
  2. arrange()--按某1列或某几列对整个表格进行排序。
  • arrange(test, 第一列名称)是以默认的方式从小到大的顺序排列
  • arrange(test, desc(a))test表格中以a列为排列标准,从大到小的排列

5.`summarise():汇总(与group_by联合使用更香哦)

group_by(test, Species) # 先按照Species分组,计算每组Sepal.Length的平均值和标准差
summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length))   

实用技能

  1. 管道操作 %>%(cmd/ctr + shift + M):加载任意一个tidyverse包均可使用。
  2. count统计某列的unique值:count(数据集,列名)。

处理关系数据(将两个表进行连接)

  1. 取交集:inner_join(test1, test2, by = "x")
  2. 左连: left_join(test1, test2, by = 'x')
  3. 全连full_join( test1, test2, by = 'x')
  4. 半连接semi_join(x = test1, y = test2, by = 'x')
  5. 反连接anti_join(x = test2, y = test1, by = 'x')
  6. bind_rows()函数是两个表格列数相同相连接,而bind_cols()函数则是两个数据框有相同的行数

相关文章

网友评论

    本文标题:学习小组Day6笔记-君君

    本文链接:https://www.haomeiwen.com/subject/tceqmktx.html