1.Rstudio 导入文件
image.pngheader : 第一行是否作为表头
sep :分隔符
row.names: 哪一列作为行名
stringsAsFactors: 字符串是否作为因子
na.strings :空值用什么表示
#查看当前目录下文件
dir()
#读入一个文件,存入 x 变量
x <- read.table(Matrix.csv")
#读入文件,指定分隔符
x <- read.table(file = "Matrix.csv",header = T,sep = ",")
#读入文件,指定分隔符和列名
x <- read.csv (file = "Matrix.csv",header = T,row.names = 1)
#读入文件,指定分隔符、表头与行名以及字符串不作为因子
x <- read.csv (file = "Rdata/CountMatrix.csv",header = T,sep = ",",row.names =1, na.strings = "NA",stringsAsFactors = F)
1、data:后面接文件路径,注意文件路径一定要加引号,注意 windows 系统文件路径的写法。
2、header:只接逻辑值 TRUE 或者 FALSE,代表第一行是否作为表头,默认为 FALSE。如果不设置,R 会默认添加 V1,V2 等作为列名。
3、sep:分隔符,读入文件最重要的一个选项,如果设置错误,文件格式很乱,通常就是逗号“,”,制表符“\t”或者冒号“:”等。
4、row.names:后面接数字,指定哪一列作为行名,默认是 0,通常可以设置为 1。
5、stringsAsFactors:后面接逻辑值,R 语言默认会将文件中的字符串自动转换为因子,如果不像这么做,可以设置为 F。
6、na.strings:后面接字符串,指定文件中空值的表示方法。
note:读入文件之后,需要验证文件是否读入成功,通常使用 head 函数截取文件头部显示出来,判断格式是否正确,在 Rstudio 中也可以使用 View()函数将全部内容显示出来。如果格式不正确就需要修改命令重新读取文件;如果没有问题,就可以对数据进行后续的分析了
#查看数据结构
class(data)
#查看文件头部
head(data)
#查看文件尾部
tail(data)
#查看行名,列名
rownames(data)
colnames(data)
#View 窗口中查看数据
View(data)
#查看数据属性信息
str(data)
2. R中常用的数据结构
image.png1.向量
1.向量:vector,是 R 中最重要的一个概念,它是构成其他数据结构的基础。向量其实是用于存储数值型、字符型或逻辑型数据的一维数组。
2.创建向量用函数 c 来创建向量。
#R 内置向量
rivers
eruo
plot(rivers)
hist(rivers)
names(euro)
length(euro)
a <- c(1,2,3)
#字符型向量
b <- c("red","green","blue")
#生成连续型向量
c <- seq(1,100,2)
d <- rep(c(1,2),5)
3.向量索引
rivers[c(1)]
euro[1:3]
euro["ATS"]
4.向量计算
x <- runif(10000000,min = 1,max = 100)
length(x)
sum(x)
mean(x)
var(x)
sd(x)
median(x)
range(x)
a <- 1:5
b <- 10:1
a+1
a*2
a+b
2.矩阵
矩阵(Matrix)是一个按照长方阵列排列的复数或实数集合。向量是一维的,而矩阵是二维的,需要有行和列。常用的是数据矩阵,基因的表达数据为数值矩阵。矩阵有两大作用,一个是用来计算相关性,另外可以用来绘制热图。
1.创建矩阵
state.x77 #R中内置矩阵
m <- matrix(1:20,nrow = 4,ncol = 5)
rowSums(state.x77)
colMeans(state.x77)
cor(state.x77)
2.矩阵索引
state.x77
state.x77[1,2]
state.x77[1,]
state.x77["Alabama",]
3.数据框
1.创建数据框:利用 data.frame()函数创建数据框。
data.frame()
mtcars ###自带数据框
iris ###自带数据框
adata <- data.frame(state.name,state.division,state.area) #合并数据框
str(adata)
2. 数据框索引
- 中括号
- 名称
- dollar符:$
- 逻辑值 T F
euro[1:3]
euro[-(1:3)]
euro["ATS"]
mtcars[c(2,3,4,5)]
mtcars$mpg
alist <- list(euro,iris,mtcars)
alist[1]
alist[[1]]
4.因子
所有的数据集合可以分为三类,连续型,名义型和有序型。连续型例如1 2 3 4 5 8 9 10,而有序型 周一,周二,周三……等。在R中名义型变量和有序性变量称为因子,factor。这些分类变量的可能值称为一个水平level,由这些水平值构成的向量就称为因子。因子主要用于计算频数,可以用来分组。可以通过factor()函数中的labels选项对因子的值进行批量修改。
state.division
state.region
table(state.division)
afactor <- factor(c("blue","red","red","green","red","blue"),levels = c("red","green","blue","yellow"))
bfactor <- factor(letters[1:5], labels = c("one","two","three","four","five"))
5.列表
列表就是一些对象的有序集合。列表中可以存储若干向量、矩阵、数据框,甚至其他列表的组合。
state.center
alist <- list(euro,state.x77,iris)
6.时间序列
co2
presidents
网友评论