R包是多个函数的集合
1. 安装和加载R包
1.1 镜像设置
options(BioC_mirror="http://mirrors.tuna.tsinghua.edu.cn/bioconductor/")
options("repos" = c(CRAN="http://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
1.2 安装
install.packages(“包”)
BiocManager::install(“包”)
1.3 加载
library(包)
require(包)
安装与加载dplyr包
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") install.packages("dplyr") library(dplyr)
示例数据
test <- iris[c(1:2,51:52,101:102),]
2. dplyr五个基础函数
2.1 mutate(),新增列

2.2 select(),按列筛选
2.2.1 按列号筛选

2.2.2 按列名筛选

2.3 filter()筛选行

2.4 arrange(),按某1列或某几列对整个表格进行排序
2.4.1 按照Sepal.Length值默认从小到大排序

2.4.2 用desc按照Sepal.Length值从大到小

2.5 summarise():汇总
对数据进行汇总操作,结合group_by使用实用性强

用group_by按照Species分组,分为了3组
用summarise计算每组Sepal.Length的平均值和标准差
3. dplyr两个实用技能
3.1 管道操作 %>% (cmd/ctr + shift + M)

3.2 count统计某列的unique值

4.dplyr处理关系数据
首先构建2个数据框test1和test2

4.1 內连inner_join,取交集
4.2 左连left_join
按照test1的x列将两个数据库进行合并

按照test2的x列将两个数据库进行合并

4.3 全连full_join
相当于取两个数据框x的交集进行合并

4.4 半连接:返回能够与y表匹配的x表所有记录semi_join
通过x返回能够与test2表匹配的test1表所有记录

4.5 反连接:返回无法与y表匹配的x表的所记录anti_join

4.6 简单合并

bind_rows
列数相同行合并bind_cols
行数相同列合并
幕布

网友评论