1. 数据集
数据集就是由数据组成的一个矩形数组。行是观测,列是变量。

不同行业叫法不同,但都是同一回事。
2. 数据类型
R可以处理的数据类型主要包括如下几类,其中前三种是最常用的。
数值型:2, 10/15/2009, 25
;上图中的变量PatientID
、AdmDate
和Age
;
字符型:字符,Type 1,Poor
;上图中的变量Diabetes
和Status
;
逻辑型:TRUE
、FALSE
复数型:虚数
原生型:字节
3. 数据结构
R拥有许多用于存储数据的对象类型, 包括标量、 向量、 矩阵、 数组、数据框和列表。 其中数据框是最常用的。

另外,在R中,对象(Object)是指可以赋值给变量的任何事物。
3.1 向量
向量 是用于存储数值型、 字符型或逻辑型数据的一维数组。
可以使用执行组合功能的函数c() 可用来创建向量。
a <- c(1, 2, 5, 3, 6, -2, 4)
b <- c("one", "two", "three")
c <- c(TRUE, TRUE, TRUE, FALSE, TRUE, FALSE)
a是数值型向量,b是字符型向量,c是逻辑性向量。
注意,单个向量中的数据必须是同一类型。
3.2 矩阵
矩阵 是一个二维数组, 只是每个元素都拥有相同的模式(数值型、 字符型或逻辑型)。 可通过函数matrix()创建矩阵。 一般使用格式为:
myymatrix <- matrix(vector, nrow=number_of_rows, ncol=number_of_columns,
byrow=logical_value, dimnames=list(char_vector_rownames, char_vector_colnames))
举两个例子作为对比,理解各参数的作用。
temp <- matrix(c(1:12), nrow = 4 , ncol = 3, byrow = TRUE,
dimnames = list(c('row1', 'row2','row3', 'row4'),
c('col1', 'col2','col3')))
print(temp)

注意nrow
、 ncol
和byrow
的参数赋值变化。
temp1 <- matrix(c(1:12), nrow = 3 , ncol = 4, byrow = FALSE,
dimnames = list(c('row1', 'row2','row3'),
c('col1', 'col2','col3', 'col4')))
print(temp1)

3.3 数组
数组 (array) 与矩阵类似, 但是维度可以大于2。
数组可通array函数创建, 形式如下:
myarray <- array(vector, dimensions, dimnames)
书中例子如下:
dim1 <- c("A1", "A2")
dim2 <- c("B1", "B2", "B3")
dim3 <- c("C1", "C2", "C3", "C4")
z <- array(c(1:24), c(2, 3, 4), dimnames=list(dim1, dim2, dim3))
print(z)

网友评论