刘强, 裴艳波, 张贝贝.(2016). R语言与现代统计方法. 清华大学出版社一书所记录的笔记。
p10
查看首/尾6行数据:
head()
tail()
取消引用包:detach("package:name of package")
p13
生成数字序列
seq(from= ,to= , by= , length.out=)
- by:间隔
- length.out:返回的向量长度(生成的数字个数)
rep(x, times=,length.out=,each=)
- each:每个元素重复的次数
p14
-
整除:%/%
-
求余:%%
-
开方:x开n次根号=x1/n
-
返回最小值的下标:which.min(x)
-
返回最小值的下标:which.min(x)
-
返回最大值和最小值:range(x)
-
prod(x):连乘
-
mad(x):绝对中位差
-
IQR(x):四分位差
p18
字符串处理函数:
- ls(pat="z"):显示名称中有z的对象
- paste()/paste0()
- grep(pattern,x,ignore.case=F):在x中抓取含有pattern的字符串,返回字符串所在的下标。
- grepl():同上,返回值为逻辑值T\F
- regexpr(pattern,x):同上,返回值为x中各元素中含有pattern的位置,没有则为-1.
- substr(x,start,stop):提取start到stop之间的字符串
- nchar(x):返回字符串长度。
p22
处理因子数据:
- tapply(x,index,fun=,simplify=T):根据index中的因子对数据x进行fun处理。
> x <- rep(1:3,each=3)
> x
[1] 1 1 1 2 2 2 3 3 3
> df <- mtcars$mpg[1:9]
> df
[1] 21.0 21.0 22.8 21.4 18.7 18.1 14.3 24.4 22.8
> index <- factor(x,labels = c('A','B','C'))
> index
[1] A A A B B B C C C
Levels: A B C
> tapply(df,index,mean)
A B C
21.6 19.4 20.5
- as.ordered(x): 将x 转化为具有顺序的因子向量
p24
- 创建数组:array(data=,dim=,dimnames=)
- 创建矩阵:matrix(x,nc=3,nr=3)
> matrix_x <- matrix(x,nc=3,nr=3)
> matrix_x
[,1] [,2] [,3]
[1,] 1 2 3
[2,] 1 2 3
[3,] 1 2 3
- 转置:t(matrix_x)
- 合并:cbind(),rbind()
- 求行列式:det(matrix_x)
- 线性方程组求解:solve(B,z),B为系数矩阵,z为方程的值。
> B <- matrix(rbind(c(1,3,6),c(2,4,8),c(1,2,5)),nr=3);B
[,1] [,2] [,3]
[1,] 1 3 6
[2,] 2 4 8
[3,] 1 2 5
> z <- c(4,6,7);z
[1] 4 6 7
> solve(B,z)
[1] 1 -7 4
p31
累计求和、积、极值等:cumsum()、cumprod()、cummax()、cummin()。
colnames(dataframe)
p33
- 取子集:subset(x,select=,subset=)
- 添加:df$E=with(df,c(1,2,3,9));df=transform(df,G=1:4,H=4:8)
网友评论