美文网首页
R语言实战(第2版):第二章 创建数据集(02)

R语言实战(第2版):第二章 创建数据集(02)

作者: 小杜的生信筆記 | 来源:发表于2019-12-03 18:22 被阅读0次

2.2.3 数组

数组(array)与矩阵类似,但是维度可以大于2。数组可通过array函数创建,形式如下:

myarray <- array(vector, dimensions, dimnames) 

创建一个数组

> dim1 <- c("A1", "A2") 
> dim2 <- c("B1", "B2", "B3") 
> dim3 <- c("C1", "C2", "C3", "C4") 
> z <- array(1:24, c(2, 3, 4), dimnames=list(dim1, dim2, dim3)) 
> z 
, , C1  
   B1 B2 B3 
A1  1  3  5 
A2  2  4  6 
 
, , C2 
   B1 B2 B3 
A1  7  9 11 
A2  8 10 12 
 
, , C3 
   B1 B2 B3 
A1 13 15 17 
A2 14 16 18 
 
, , C4 
   B1 B2 B3 
A1 19 21 23 
A2 20 22 24 

数组是矩阵的一个自然推广.

2.2.4 数据框

由于不同的列可以包含不同模式(数值型、字符型等)的数据,数据框的概念较矩阵来说更为一般.
数据框可通过函数data.frame()创建:

mydata <- data.frame(col1, col2, col3,...) 

例子: 创建一个数据框

> patientID <- c(1, 2, 3, 4) 
> age <- c(25, 34, 28, 52) 
> diabetes <- c("Type1", "Type2", "Type1", "Type1") 
> status <- c("Poor", "Improved", "Excellent", "Poor")
> patientdata <- data.frame(patientID, age, diabetes, status) 
> patientdata
patientID age diabetes    status 
1         1  25    Type1      Poor 
2         2  34    Type2  Improved 
3         3  28    Type1 Excellent 
4         4  52    Type1      Poor 

选取数据框中的元素

> patientdata[1:2] 
  patientID age  
1         1  25 
2         2  34 
3         3  28
> patientdata[c("diabetes", "status")] 
  diabetes    status 
1    Type1      Poor 
2    Type2  Improved 
3    Type1 Excellent 
4    Type1      Poor 
 > patientdata$age    
[1] 25 34 28 52 

1. attach()、detach()和with()

(1)函数attach()可将数据框添加到R的搜索路径中.

(2)函数detach()将数据框从搜索路径中移除.值得注意的是,detach()并不会对数据框本身做任何处理。

2.2.5 因子

变量可归结为名义型、有序型或连续型变量。名义型变量是没有顺序之分的类别变量。
类别(名义型)变量和有序类别(有序型)变量在R中称为因子(factor)。

函数factor()以一个整数向量的形式存储类别值,整数的取值范围是[1...k](其中k是名义型变量中唯一值的个数),同时一个由字符串(原始值)组成的内部向量将映射到这些整数上。

diabetes <- c("Type1", "Type2", "Type1", "Type1") 

语句diabetes <- factor(diabetes)将此向量存储为(1, 2, 1, 1),并在内部将其关联为1=Type1和2=Type2(具体赋值根据字母顺序而定)。

要表示有序型变量,需要为函数factor()指定参数ordered=TRUE。给定向量:

status <- c("Poor", "Improved", "Excellent", "Poor")

语句status <- factor(status, ordered=TRUE)会将向量编码为(3, 2, 1, 3),并在内部将这些值关联为1=Excellent、2=Improved以及3=Poor。另外,针对此向量进行的任何分析都会将其作为有序型变量对待,并自动选择合适的统计方法。

对于字符型向量,因子的水平默认依字母顺序创建。这对于因子status是有意义的,因为“Excellent”“Improved”“Poor”的排序方式恰好与逻辑顺序相一致。如果“Poor”被编码为“Ailing”,会有问题,因为顺序将为“Ailing”“Excellent”“Improved”。


图解:首先,以向量的形式输入数据➊。然后,将diabetes和status分别指定为一个普通因子和一个有序型因子。最后,将数据合并为一个数据框。函数str(object)可提供R中某个对象(本例中为数据框)的信息➋。它清楚地显示diabetes是一个因子,而status是一个有序型因子,以及此数据框在内部是如何进行编码的。注意,函数summary()会区别对待各个变量➌。它显示了连续型变量age的最小值、最大值、均值和各四分位数,并显示了类别型变量diabetes和status(各水平)的频数值。

2.2.6 列表

列表(list)是R的数据类型中最为复杂的一种。一般来说,列表就是一些对象(或成分,component)的有序集合。

mylist <- list(object1, object2, ...) 

其中的对象可以是目前为止讲到的任何结构。你还可以为列表中的对象命名:

mylist <- list(name1=object1, name2=object2, ...) 

下面给出一个实际例子进行解释说明:



本例创建了一个列表,其中有四个成分:一个字符串、一个数值型向量、一个矩阵以及一个字符型向量。可以组合任意多的对象,并将它们保存为一个列表。



R语言实战(第2版):第一章 R语言介绍
R语言实战(第2版):第二章 创建数据集(01)
R语言实战(第2版):第二章 创建数据集(02)

相关文章

网友评论

      本文标题:R语言实战(第2版):第二章 创建数据集(02)

      本文链接:https://www.haomeiwen.com/subject/xmlgwctx.html