R语言实战（第2版）：第二章创建数据集（02）

作者: 小杜的生信筆記 | 来源:发表于2019-12-03 18:22 被阅读0次

R语言实战（第2版）：第二章创建数据集（01）
R语言实战—02-创建数据集
R语言实战（第2版）：第二章创建数据集（02）
R语言第二章数据处理④数据框排序和重命名
R语言第二章数据处理⑤数据框列的转化和计算
R语言第二章数据处理⑦dplyr包（2）列处理
R语言第二章数据处理⑥dplyr包（1）列选取
R语言第二章数据处理⑨缺失值判断和填充
R语言第二章数据处理⑧数据采样和离散化
R语言第二章数据处理(9)数据合并

2.2.3 数组

数组（array）与矩阵类似，但是维度可以大于2。数组可通过array函数创建，形式如下：

myarray <- array(vector, dimensions, dimnames)

创建一个数组

> dim1 <- c("A1", "A2") 
> dim2 <- c("B1", "B2", "B3") 
> dim3 <- c("C1", "C2", "C3", "C4") 
> z <- array(1:24, c(2, 3, 4), dimnames=list(dim1, dim2, dim3)) 
> z 
, , C1  
   B1 B2 B3 
A1  1  3  5 
A2  2  4  6 
 
, , C2 
   B1 B2 B3 
A1  7  9 11 
A2  8 10 12 
 
, , C3 
   B1 B2 B3 
A1 13 15 17 
A2 14 16 18 
 
, , C4 
   B1 B2 B3 
A1 19 21 23 
A2 20 22 24

数组是矩阵的一个自然推广.

2.2.4 数据框

由于不同的列可以包含不同模式（数值型、字符型等）的数据，数据框的概念较矩阵来说更为一般.
数据框可通过函数data.frame()创建：

mydata <- data.frame(col1, col2, col3,...)

例子：创建一个数据框

> patientID <- c(1, 2, 3, 4) 
> age <- c(25, 34, 28, 52) 
> diabetes <- c("Type1", "Type2", "Type1", "Type1") 
> status <- c("Poor", "Improved", "Excellent", "Poor")
> patientdata <- data.frame(patientID, age, diabetes, status) 
> patientdata
patientID age diabetes    status 
1         1  25    Type1      Poor 
2         2  34    Type2  Improved 
3         3  28    Type1 Excellent 
4         4  52    Type1      Poor

选取数据框中的元素

> patientdata[1:2] 
  patientID age  
1         1  25 
2         2  34 
3         3  28
> patientdata[c("diabetes", "status")] 
  diabetes    status 
1    Type1      Poor 
2    Type2  Improved 
3    Type1 Excellent 
4    Type1      Poor 
 > patientdata$age    
[1] 25 34 28 52

1. attach()、detach()和with()

(1)函数attach()可将数据框添加到R的搜索路径中.

(2)函数detach()将数据框从搜索路径中移除.值得注意的是，detach()并不会对数据框本身做任何处理。

2.2.5 因子

变量可归结为名义型、有序型或连续型变量。名义型变量是没有顺序之分的类别变量。
类别（名义型）变量和有序类别（有序型）变量在R中称为因子（factor）。

函数factor()以一个整数向量的形式存储类别值，整数的取值范围是[1...k]（其中k是名义型变量中唯一值的个数），同时一个由字符串（原始值）组成的内部向量将映射到这些整数上。

diabetes <- c("Type1", "Type2", "Type1", "Type1")

语句diabetes <- factor(diabetes)将此向量存储为(1, 2, 1, 1)，并在内部将其关联为1=Type1和2=Type2（具体赋值根据字母顺序而定）。

要表示有序型变量，需要为函数factor()指定参数ordered=TRUE。给定向量：

status <- c("Poor", "Improved", "Excellent", "Poor")

语句status <- factor(status, ordered=TRUE)会将向量编码为(3, 2, 1, 3)，并在内部将这些值关联为1=Excellent、2=Improved以及3=Poor。另外，针对此向量进行的任何分析都会将其作为有序型变量对待，并自动选择合适的统计方法。

对于字符型向量，因子的水平默认依字母顺序创建。这对于因子status是有意义的，因为“Excellent”“Improved”“Poor”的排序方式恰好与逻辑顺序相一致。如果“Poor”被编码为“Ailing”，会有问题，因为顺序将为“Ailing”“Excellent”“Improved”。

图解：首先，以向量的形式输入数据➊。然后，将diabetes和status分别指定为一个普通因子和一个有序型因子。最后，将数据合并为一个数据框。函数str(object)可提供R中某个对象（本例中为数据框）的信息➋。它清楚地显示diabetes是一个因子，而status是一个有序型因子，以及此数据框在内部是如何进行编码的。注意，函数summary()会区别对待各个变量➌。它显示了连续型变量age的最小值、最大值、均值和各四分位数，并显示了类别型变量diabetes和status（各水平）的频数值。

2.2.6 列表

列表（list）是R的数据类型中最为复杂的一种。一般来说，列表就是一些对象（或成分，component）的有序集合。

mylist <- list(object1, object2, ...)

其中的对象可以是目前为止讲到的任何结构。你还可以为列表中的对象命名：

mylist <- list(name1=object1, name2=object2, ...)

下面给出一个实际例子进行解释说明：

本例创建了一个列表，其中有四个成分：一个字符串、一个数值型向量、一个矩阵以及一个字符型向量。可以组合任意多的对象，并将它们保存为一个列表。

R语言实战（第2版）：第一章 R语言介绍
 R语言实战（第2版）：第二章创建数据集（01）
R语言实战（第2版）：第二章创建数据集（02）

网友评论

本文标题：R语言实战（第2版）：第二章创建数据集（02）

本文链接：https://www.haomeiwen.com/subject/xmlgwctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

R语言实战（第2版）：第二章创建数据集（02）

2.2.3 数组

2.2.4 数据框

1. attach()、detach()和with()

2.2.5 因子

2.2.6 列表

相关文章

R语言实战（第2版）：第二章创建数据集（01）

R语言实战—02-创建数据集