R语言：2_1--数据的概念及结构

作者: Z_bioinfo | 来源:发表于2022-05-06 10:50 被阅读0次

R语言：2_1--数据的概念及结构
《学习小组Day5笔记--寒鹤》
R和Python数据结构对比
生信学习小组Day5笔记-lamyusam_
Day5—刘强
R基础与机器学习初探
【R数据科学读书笔记】R语言的数据结构原来可以这样理解
R语言的数据结构（包含向量和向量化详细解释）
R语言基本操作
R语言--高效操作数据框（dplyr包）（1）

一.数据集的概念

数据集通常由数据构成的一个矩形数组，行表观测，列表变量。当然不同行业对数据集的行列叫法不同。

①统计学家称它们为观测和变量

②数据分析师称记录和字段

③机器学习算法工程师称其为实例和属性

2.2数据结构

R用于存储数据的对象类型，包括标量、向量、矩阵、数组、数据框和列表：

image.png

2.2.1 向量

向量是用于储存数值型，字符型，逻辑型数据的一维数组。函数c（）创建向量。

a <- c(1, 2, 5, 3, 6, -2, 4)
b <- c("one", "two", "three")
c <- c(TRUE, TRUE, TRUE, FALSE, TRUE, FALSE)

这里，a是数值型向量，b是字符型向量，而c是逻辑型向量。注意，单个向量中的数据必须拥有相同的类型或模式（数值型、字符型或逻辑型）。同一向量中无法混杂不同模式的数据。

通过在方括号中给定元素所处位置的数值，我们可以访问向量中的元素。

注意：标量是只含有一个元素的向量f<-7

a <- c("k", "j", "h", "a", "c", "m")
a[3]
"h"

a[c(1, 3, 5)]
"k" "h" "c"

a[2:6]
"j"  "h"  "a"  "c"  "m"

2.2.2 矩阵（二维数组）

矩阵是一个二维数组，只是每个元素都拥有相同的模式（数值型、字符型或逻辑型）。可通过函数matrix( )创建矩阵。使用格式：

myymatrix <- matrix(vector, nrow=number_of_rows, ncol=number_of_columns, byrow=logical_value, dimnames=list( char_vector_rownames, char_vector_colnames))

其中vector包含了矩阵的元素，nrow和ncol用以指定行和列的维数，dimnames包含了可选的、以字符型向量表示的行名和列名。选项byrow则表明矩阵应当按行填充（byrow=TRUE）还是按列填充（byrow=FALSE），默认情况下按列填充。

代码清单2-1：创建矩阵

y <- matrix(1:20, nrow=5, ncol=4) #创建一个5*4矩阵
y

     [,1] [,2] [,3] [,4]
[1,]    1    6   11   16
[2,]    2    7   12   17
[3,]    3    8   13   18
[4,]    4    9   14   19
[5,]    5   10   15   20


cells    <- c(1,26,24,68)
rnames   <- c("R1", "R2")
cnames   <- c("C1", "C2") 
mymatrix <- matrix(cells, nrow=2, ncol=2, byrow=TRUE, dimnames=list(rnames, cnames))  #按行填充的2*2矩阵
mymatrix

   C1 C2
R1  1 26
R2 24 68

mymatrix <- matrix(cells, nrow=2, ncol=2, byrow=FALSE, dimnames=list(rnames, cnames)) #按列填充的2*2矩阵
mymatrix

	C1	C2
R1	1	24
R2	26	68

代码清单2-2：矩阵下标的使用

我们可以使用下标和方括号来选择矩阵中的行、列或元素。X[i,]指矩阵 X 中的第i行，X[,j]指第 j 列，X[i,j] 指第 i 行第 j 个元素。选择多行或多列时，下标 i 和 j 可为数值型向量

In [8]:

x <- matrix(1:10, nrow=2)
x
     [,1] [,2] [,3] [,4] [,5]
[1,]    1    3    5    7    9
[2,]    2    4    6    8   10

x[2,]
[1]  2  4  6  8 10

x[,2]
[1] 3 4

x[1,4]
[1] 7

x[1, c(4,5)]
[1] 7 9

数组

数组（array）与矩阵类似，但是维度可以大于2。数组可通过array函数创建, 形式如下： myarray <- array(vector, dimensions, dimnames)

其中vector包含了数组中的数据，dimensions是一个数值型向量，给出了各个维度下标的最大值，而dimnames是可选的、各维度名称标签的列表。

代码清单2-3：创建一个数组

dim1 <- c("A1", "A2")
dim2 <- c("B1", "B2", "B3")
dim3 <- c("C1", "C2", "C3", "C4")
z <- array(1:24, c(2,3,4), dimnames=list(dim1, dim2, dim3))

print(z)
, , C1

   B1 B2 B3
A1  1  3  5
A2  2  4  6

, , C2

   B1 B2 B3
A1  7  9 11
A2  8 10 12

, , C3

   B1 B2 B3
A1 13 15 17
A2 14 16 18

, , C4

   B1 B2 B3
A1 19 21 23
A2 20 22 24

数据框

代码清单2-4：创建一个数据框

数据框可通过函数data.frame()创建： mydata <- data.frame(col1, col2, col3,...)

其中的列向量 col1、col2、col3等可为任何类型（如字符型、数值型或逻辑型）。每一列的名称可由函数names指定。

In [15]:

patientID <- c(1, 2, 3, 4)
age <- c(25, 34, 28, 52)
diabetes <- c("Type1", "Type2", "Type1", "Type1")
status <- c("Poor", "Improved", "Excellent", "Poor")
patientdata <- data.frame(patientID, age, diabetes, status)
patientdata

patientID	age	diabetes	status
1	25	Type1	Poor
2	34	Type2	Improved
3	28	Type1	Excellent
4	52	Type1	Poor

代码清单2-5：选取数据框中的元素

可以使用前述（如矩阵中的）下标记号，亦可直接指定列名

patientdata[1:2]

patientID	age
1	25
2	34
3	28
4	52

patientdata[c("diabetes","status")]

diabetes	status
Type1	Poor
Type2	Improved
Type1	Excellent
Type1	Poor

patientdata$age
25 34 28 52

table(patientdata$diabetes, patientdata$status)#生成diabetes和status的列联表
        Excellent Improved Poor
  Type1         1        0    2
  Type2         0        1    0

因子

代码清单2-6 因子的使用

变量：名义型、有序型或连续型变量。

类别（名义型）变量和有序类别（有序型）变量在R中称为因子（factor）。函数factor( )以一个整数向量的形式存储类别值，整数的取值范围是[1... k ]（其中k 是名义型变量中唯一值的个数），同时一个由字符串（原始值）组成的内部向量将映射到这些整数上。

①名义型：diabetes<-factor(diabetes)

②有序型：status<-factor(status,order=T)#表示有序型变量，需要为函数factor()指定参数order=TRUE 。

代码清单2-6演示了普通因子和有序因子的不同是如何影响数据分析的。

# 以向量形式输入数据
patientID <- c(1, 2, 3, 4)
age <- c(25, 34, 28, 52)
diabetes <- c("Type1", "Type2", "Type1", "Type1") 
status <- c("Poor", "Improved", "Excellent", "Poor")
diabetes <- factor(diabetes) #普通因子
status <- factor(status, order=TRUE) #有序型因子
patientdata <- data.frame(patientID, age, diabetes, status)

#显示对象的结构
str(patientdata)
'data.frame':   4 obs. of  4 variables:
 $ patientID: num  1 2 3 4
 $ age      : num  25 34 28 52
 $ diabetes : Factor w/ 2 levels "Type1","Type2": 1 2 1 1
 $ status   : Ord.factor w/ 3 levels "Excellent"<"Improved"<..: 3 2 1 3

# 显示对象的统计概要
summary(patientdata)
   patientID         age         diabetes       status 
 Min.   :1.00   Min.   :25.00   Type1:3   Excellent:1  
 1st Qu.:1.75   1st Qu.:27.25   Type2:1   Improved :1  
 Median :2.50   Median :31.00             Poor     :2  
 Mean   :2.50   Mean   :34.75                          
 3rd Qu.:3.25   3rd Qu.:38.50                          
 Max.   :4.00   Max.   :52.00

列表

列表（list）是R的数据类型中最为复杂的一种。一般来说，列表就是一些对象（或成分，component）的有序集合。列表允许你整合若干（可能无关的）对象到单个对象名下。

可以使用函数list()创建列表：mylist <- list(object1, object2, ...)
其中的对象可以是目前为止讲到的任何结构。
你还可以为列表中的对象命名：mylist <- list(name1=object1, name2=object2, ...)

代码清单2-7：创建一个列表

g <- "My First List"
h <- c(25, 26, 18, 39)
j <- matrix(1:10, nrow=5)
k <- c("one", "two", "three")
mylist <- list(title=g, ages=h, j, k)

# 输出整个列表
print(mylist)
$title
[1] "My First List"

$ages
[1] 25 26 18 39

[[3]]
     [,1] [,2]
[1,]    1    6
[2,]    2    7
[3,]    3    8
[4,]    4    9
[5,]    5   10

[[4]]
[1] "one"   "two"   "three"

网友评论

本文标题：R语言：2_1--数据的概念及结构

本文链接：https://www.haomeiwen.com/subject/ufqhyrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！