R语言的编程环境
参考原文地址:
https://www.jianshu.com/p/2a1a2ca1a916
安装步骤如下:https://blog.csdn.net/m0_37345402/article/details/82839863
R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。简单来说,R是一门统计计算语言,是一套开源的数据分析解决方案。
RStudio是一款R语言的IDE,R自带的环境操作起来可能不是方便,而Rstudio很好地解决了这个问题,而且它还具有调试、可视化等功能,支持纯R脚本、Rmarkdown (脚本文档混排)、Bookdown (脚本文档混排成书)、Shiny (交互式网络应用)等。
安装顺序:①R ②RStudio
一开始把两个都安装在D盘,R安装完成,RStudio也安装完成,不过打开RStudio时会报致命错误,不知道为什么,就算重新卸载再安装还是会打开RStudio报错,然后最后尝试卸载把两个重新安装在C盘,就可以了。
打开页面:
image.png
ps:R是解释型语言,因此可以一次性执行写在脚本文件中的一组命令,这称为批处理/脚本文件方式使用。
脚本文件以R为扩展名,如test.R。在命令台上键入source(“z.R”)来运行该脚本。
对于解释器与编程环境的区别:
看到这个解释觉得挺形象, 就把它放到这里,方便以后想再看的时候方便找到
https://www.cnblogs.com/sword03/archive/2010/06/27/1766147.html
R语言的一些基础笔记
1、变量赋值:=或者 <-
2、c为combine的意思,Combine Values into a Vector or List
基础数据结构
1、向量
#创建向量
a<-c(1,2,3,4,5,6)
b<-c("one","two","three")
c<-c(TRUE,FALSE,TRUE,TRUE,FALSE)
#向量索引
a[2] #第二个元素
a[-2] #删除第二个元素
a[c(2:4)] #取出第二到第四个元素
#输出结果
[1] 2
[1] 1 3 4 5 6
[1] 2 3 4
2、矩阵
#创建矩阵
mymat <- matrix(c(1:10), nrow=2, ncol=5, byrow=TRUE)
#R语言是默认byrow=False,即数据按列输入,byrow=True则按行输入
#矩阵索引
mymat #输出矩阵
mymat[2,] #取第二行
mymat[,2] #取第二列
mymat[1,5] #第一行第五列的元素
#输出结果
[,1] [,2] [,3] [,4] [,5]
[1,] 1 2 3 4 5
[2,] 6 7 8 9 10
[1] 6 7 8 9 10
[1] 2 7
[1] 5
#对比一下byrow=False的结果
>mymat01 <-matrix(c(1:10),nrow=2,ncol=5)
>mymat01
[,1] [,2] [,3] [,4] [,5]
[1,] 1 3 5 7 9
[2,] 2 4 6 8 10
3、数组
#创建数组
myarr <- array(c(1:12),dim=c(2,3,2)) #2X3X2
dim(myarr) #取矩阵或数组的维度
myarr[1,2,1] #取第一个矩阵的第一行第二列
#输出结果
, , 1
[,1] [,2] [,3]
[1,] 1 3 5
[2,] 2 4 6
, , 2
[,1] [,2] [,3]
[1,] 7 9 11
[2,] 8 10 12
[1] 2 3 2
[1] 3
对于维数向量:
数组有一个特征属性叫做维数向量(dim属性),dim参数可省,省略时作为一维数组(但不同于向量),向量只有定义了维数向量(dim属性)后才能被看作是数组。
4、数据框
数据框类似矩阵(属性:行数和列数)
#创建数据框
kids <- c("Wang", "Li")
age <- c("18", "16")
df <- data.frame(kids, age)
#数据框索引
df[1,] #第一行
df[,2] #第二列
df[1:2,1:2]#前两行,前两列
df$kids #根据列名称
#数据框常用函数
str(df) #数据框的结构
rownames(df) #行名称
colnames(df) #列名称
5、因子变量
变量:类别变量,数值变量
类别数据对于分组数据研究非常有用。
因子用来存储类别变量(categorical variables)和有序变量,这类变量不能用来计算而只能用来分类或
者计数。因子表示分类变量,有序因子表示有序变量。
生成因子数据对象的函数是factor(),语法是factor(data, levels, labels, ...),其中data是数据,levels是因子水平向量,labels是因子的标签向量。
#向量因子化
status<-c("Poor", "Improved", "Improved","Excellent", "Poor")
status<-rep(status,15) #rep(),复制函数,复制status数据15次
status<-factor(status,ordered=TRUE, levels= c("Poor","Improved", "Excellent"),labels=c("P","I","E"))
#创建有序因子,因子水平向量:Poor<Improved<Excellent
index <- sample(1:100,75) #sample()随机抽样函数
plotdata <- data.frame(index,status)
attach(plotdata)
boxplot(index~status,col="red") #boxplot函数绘制箱线图
箱线图
小知识点:
sample函数可以完成随机抽样处理,其基本形式为:
sample(x, size, replace = FALSE)
具体参数说明:
x 整体数据,以向量形式给出
size 抽取样本的数目
replace 如果为F(默认),则是不重复抽样,此时size不能大于x的长度;如果为T,则是重复抽样,此时size允许大于x的长度
6、列表
列表以一种简单的方式组织和调用不相干的信息,R函数的许多运行结果都是以列表的形式返回。
#创建列表
lis <- list(name='fred',wife='mary',no.children=3,child.ages=c(4,7,9))
#列表索引
lis$name #列表组件名
lis[[1]] #列表位置访问
输出结果
下面是我整理的R的控制流的笔记记录:
https://www.jianshu.com/p/960e99e90154
网友评论