一. R与Rstudio
R: 编程语言,统计计算和绘图的环境。
R studio: R语言的集成开发环境
- 新建项目R project:
- 新建脚本:
- R studio界面:(1) 脚本编辑器(2) 控制台(3) 环境/历史命令/连接(4) 文件/图片/帮助/包
- 字号设置:Tools-Global Options- Appearance
- 与R"交互":session(1) 控制台窗口;(2) 脚本编辑器:逐行运行 or 选中运行;"#"为注释;脚本保存到Rproject下
- R语言的几类命令响应
- 输出结果
- 报错:Error(检查命令/环境/纠正重运行)
- 警告:Warning(忽略)
- 没反应(出现>,表示已完成)
- 命令正在运行
- 命令不完整(+后可补全)
- 出现提示信息(无error可忽略)
- 进一步选择(回答问题)
二、数据类型和向量
1. 数据类型:
-
包括:数值型numeric, 字符型character, 逻辑型logical.
如何判断? 使用函数class() -
逻辑型数据
比较运算结果的是逻辑值
<, >, <=, >=, ==, !=
多个逻辑条件的链接
与&、或|、非! -
数据类型的转换与判断
as族函数实现数据类型之间的转换
is族函数,判断,返回值为TRUE 或FALSE -
数据结构
向量 vector(数据框单独拿出来的一列);数据框 data.frame(约等于表格);矩阵 matrix;列表 list。
2. 向量
2.1 向量生成
- 用c() 逐一放到一起
c(1,2,3,5,6,7) - 连续的数字用冒号":"
1:10 - 由重复的用rep(),有规律的序列用seq(),随机数用rnorm
rep("gene",times=15)
seq(from = 3,to = 21,by = 3)
rnorm(n = 5, mean = 3, sd = 5)
- 通过组合,产生更为复杂的向量
paste0(rep("gene",times=15),1:15)
2.2 对单个向量进行的操作
-
赋值给一个变量名 <- or =
x<- c(1,3,5)
- 简单数学计算: 根据某条件进行判断,生成等长的逻辑向量
-
初级统计
max(x), min(x), range(x), mean(x), length(x), unique(x), table(x)
2.3. 对两个向量的操作
- 逻辑比较,生成等长的逻辑向量
x = c(1,3,5)
y = c(3,2,5)
x == y
x %in% y #x中的元素在y中吗 - 数学计算
x+y - 连接:paste
paste(x,y,sep=":")
[1] "1:3" "3:2" "5:5"
- 交集/并集/差集
intersect(x,y)
union(x,y)
setdiff(x,y)
循环补齐:x和y不一样长
2.4. 向量筛选(取子集)
[]:将TRUE对应的值挑选出来,FALSE丢弃
> x <- 8:12
> x[x==10]
[1] 10
> x[x<12]
[1] 8 9 10 11
> x[x %in% c(9,13)]
[1] 9
> x[4]
[1] 11
> x[2:4]
[1] 9 10 11
> x[c(1,5)]
[1] 8 12
> x[-4]
[1] 8 9 10 12
> x[-(2:4)]
[1] 8 12
2.5 修改向量中某个元素
取子集+赋值
"[]" + "<-"
> x[x>3] <- 3
> x
[1] 3 3 3 3 3
三、数据框、矩阵和列表
Vector 向量 - 一维
matrix 矩阵 - 二维 :多个长短相同、数据类型相同的向量按列组合
data.frame 数据框 :多个长短相同、数据类型可以不同的向量按列组合
List列表:数据长短可以不同、数据类型可以不同;没有行和列的概念,可以有多级元素
1. 数据框来源
- 在R中新建
- 由已有数据转换或处理得到
- 从文件中读取
- 内置数据集
2. 新建数据框(本质是向量按列组合)
读取数据框:read.csv(“gene.csv")
3. 数据框属性描述
维度(几行几列):dim(df) nrow(df)/nco(df)
行名/列名 :rownames(df)/colnames(df)
4. 数据框取子集(一个、一行、一列)
4.1 向量 -位置
4.2 根据行名或列名
df[, "exp"]
4.3 提取列的常用操作
数据框常用操作:dfexp), length(df$exp)
5. 数据框编辑
取子集¥或[]+赋值操作
df[3,3]<- 5
6. 数据框进阶
(1) 转置--行变列,列变行:t(df)
(2) 去除含有缺失值的行:na.omit(df)
(3) 两个表格的连接:
按列连接:cbind (行数相同)
按行连接:rbind (列数相同)
merge() - 根据某一相同列合并
(4) 行数较多的数据框可截取前/后几行查看
iris, head(iris,3)
(5) 行列数都多的数据框可取前几行前几列查看
iris[1:3,1:3]
(6) 查看每一列的数据类型和具体内容
str(df)
str(iris)
-
矩阵新建和取子集
m <- matrix(1:9,nrow=3)
- 列表新建和取子集
l <- list(m=matrix(1:9, nrow = 3),
df=data.frame(gene = paste0("gene",1:3),
sam = paste0("sample",1:3),
exp = c(32,34,45)),
x=c(1,3,5)) -
删除变量
四、函数和R包
-
函数与参数
![](https://img.haomeiwen.com/i19530557/466511b4c6ac26c2.png?imageMogr2/auto-
orient/strip%7CimageView2/2/w/1240)
写函数的函数
-
R包介绍
-
R包来源
CRAN网站 install.packages()
Bioconductor BiocManager::install()
github devools::install_github() -
用于R包安装的函数
安装后要library() -
R包安装前需设置镜像
国内镜像推荐:
清华镜像
中科大镜像
手工设置
tools - global option - packages
代码设置
options("repos"=c(CRAN="https://mir
rors.tuna.tsinghua.edu.cn/CRAN/"))
options(
BioC_mirror ="https://
ustc.edu.cn/ bioc -
R包安装和使用的逻辑
安装包-加载包-使用函数
已安装、不加载-直接使用:: -
常见疑问
- 大片提示信息:检查error,无可忽略
- package not available
原因1 :包名写错
原因2 :安装命令使用错误
原因3 :本机的 R 语言版本与包所要求的版本不符(极少) - 是否更新
- 加载A包,报错B包不存在(复杂)
- 报错中由connection or url
网络/镜像检查
- R包如何使用--获取帮助
?函数
help函数
R包介绍页面
少数 R 包有 cheatsheets
网友评论