Step1:下载和安装R
Windows和OS X用户可以从CRAN(Comprehensive R Archive Network)上下载R。
在浏览器中打开http://www.r-project.org/;
点击“CRAN”。然后会看到按国家排序的镜像站点列表(我选的是University of Science and Technology of China 中国科学技术大学);
点击“Download R for Windows”。
点击“base”;
点击下载最新版R的链接(我下载的是R-3.3.2-win.exe文件);
下载完成后,双击.exe文件,按照提示安装。
完成后如下图所示:
Step2:下载和安装RStudio
在浏览器中打开https://www.rstudio.com/;
点击“Download”。然后会看到如下选项,有两个免费版本。(我选择了第一个Desktop桌面版的)
点击“Download”后跳入如下界面
选择Installers下载项的第一行,进行Windows版本的RStudio的下载;
下载完成后,双击.exe文件,按照提示安装。
完成后如下图所示:
!!!没想到打开的窗口一片空白,单击无法正常打开,经登录相关论坛,发现可能是安装路径存在问题。于是我将R及RStudio重新安装于同一目录下,然而窗口仍不可正常显示。经过我进一步的查找相关解决方法,按住“Ctrl”启动Rstudio后,终于关联了正确的英文路径,得以正常显示:
如图左边“Console”是控制台,用于输入R语言的命令及显示输出结果。右上角为工作空间,主要用于记录目前变量的数值,便于查看目前相关变量的状况;右下角为目录,主要显示当前目录下的相关文件以及文件夹等。
Step 3:Rstudio 的初体验
1.新建项目
在“New Project”下,选择“New Directory”
选择“Empty Project”,并新建立project的名称。本次命名为“DA”,如下图所示:
2.创建脚本
点击菜单File项下的New File中的R Script,即为创建新脚本。
由上图可见,新建立的脚本默认名称是Untitled1,为了日后查找方便,需要对其进行重命名。然而,live第二讲中并未涉及命名讲解,因此需要自己进行操作或者搜寻互联网解决。我注意到live课件中“保存”的按钮是灰色的,而我新建的脚本中的却还是蓝色的活动状态,于是点击进行“保存”后,命名“DS”,果然重命名成功:
3.运行脚本:
在脚本空白处输入代码,选中需要运行的代码部分,点击Run运行,就能在控制台以及工作空间上看到代码运行的情况及结果(这里借用了猴子老师第二讲live里部分代码):
随后,又尝试自己输入几行简单的求和代码,运行后如图;
赋值a=5,b=6,C=a+b,最后得出正确的答案C=11。试验成功!
Step 4:数据结构入门
1.数据结构
R拥有许多用于存储数据的对象类型,包括标量、向量、矩阵、数组、数据框和列表。
注意:在R中,术语 对象(object)是指可以赋值给变量的任何事物,包括常量、数据结构、函数,甚至图形。对象都拥有某种模式,描述了此对象是如何存储的,以及某个类。
1.1向量
向量是用于存储数值型、字符型或逻辑型数据的一维数组。执行组合功能的函数 c() 可用来创建向量。各类向量如下例所示:
a <- c(1, 2, 5, 3, 6, -2, 4) #数值型向量
b <- c("one", "two", "three") #字符型向量
c <- c(TRUE, TRUE, TRUE, FALSE, TRUE, FALSE) #逻辑型向量
注意,单个向量中的数据必须拥有相同的类型或模式(数值型、字符型或逻辑型)。同一向量中无法混杂不同模式的数据。
如何访问向量中的元素?通过在方括号中给定元素所处位置的数值。如下所示:
> a <- c("k", "j", "h", "a", "c", "m")
> a[3]#访问向量中第三个元素
[1] "h"
> a[c(1, 3, 5)] #访问向量中第一、三、五个元素
[1] "k" "h" "c"
> a[2:6] #访问向量中第二至第六个元素
[1] "j" "h" "a" "c" "m"
实例演练
在脚本中输入代码:
name<-c("猴子","李四","张三","王二")#命名向量名为猴子、李四、张三、王二
name[1]#访问向量中第一个元素名
length(name)#获取向量中元素个数
name[1:4]#访问向量中第一至第四的元素名
name[c(1,2,3,4)]#分别访问向量中第一、二、三、四的元素名
依次点击、同时选定点击运行后,结果如下图所示。
1.2 矩阵
矩阵是一个二维数组,只是每个元素都拥有相同的模式(数值型、字符型或逻辑型)。可通过函数matrix()创建矩阵。
a <- matrix(vector, nrow=number_of_rows, ncol=number_of_columns,byrow=logical_value, dimnames=list(char_vector_rownames, char_vector_colnames))
其中 vector 包含了矩阵的元素,nrow和ncol 用以指定行和列的维数,dimnames 包含了可选的、以字符型向量表示的行名和列名。选项 byrow 则表明矩阵应当按行填充(byrow=TRUE )还是按列填充(byrow=FALSE ),默认情况下按列填充。
实例演练
创建一个3*3的矩阵,
“data <-c(2,4,6,1,3,5,7,8,9);#数值为2,4,6,1,3,5,7,8,9
rnames <-c("A","B","C");#行名为"A","B","C"
cnames <-c("L1","L2","L3");#列名为"L1","L2","L3"
a<- matrix(data = data,#矩阵显示数值,
nrow=3,ncol=3,#行数为3,列数为3
byrow=TRUE,#按行填充
dimnames = list(rnames,cnames));#包含行名、列名”
得出矩阵图为
假如,改成byrow=FALSE,则:
显然,数据的排列方式发生了改变。
然后,尝试在矩阵中选择向量元素,输入代码:
a[1,1]#查看第一列第一行的元素
a[,3]#查看第三列的所有元素
a[2,c(2,3)]#查看第二行的第二、三列的所有元素
a[c(1,2),c(2,3)]#查看第一、二行、第二、三列的所有元素
a[c(1,3),c(1,2,3)]#查看第一、三行、第一、二、三列的所有元素。
结果如图:
进一步的,创建一个5*1的矩阵,绘制柱状图,如图所示:
1.3 数组
数组(array)与矩阵类似,但是维度可以大于2。数组可通过 array 函数创建。
myarray <- array(vector,dimensions,dimnames)。其中 vector 包含了数组中的数据, dimensions 是一个数值型向量,给出了各个维度下标的最大值,而 dimnames 是可选的、各维度名称标签的列表。
实例演练
创建一个三维数组,元素为1~24,
dim1 <- c("A1", "A2")
dim2 <- c("B1", "B2", "B3")
dim3 <- c("C1", "C2", "C3", "C4")
a <- array(1:24,c(2, 3, 4),dimnames = list(dim1, dim2, dim3))
欲查看该数组所有元素,采用方法如下
首先输入代码a[,,,], 显示错误,分别输入最后维度的序数,则正常显示
a[,,1]
a[,,2]
a[,,3]
a[,,4]
采用一句代码,输入a[,,c(1:4)]
则同样显示该数组所有元素
结论:数组的维度需要符合数值型向量给出的各维度下标最大值。像矩阵一样,数组中的数据也只能拥有一种模式。从数组中选取元素的方式与矩阵相同。
1.4 数据框
由于不同的列可以包含不同模式(数值型、字符型等)的数据,数据框的概念较矩阵来说更为一般。它与你通常在SAS、SPSS和Stata中看到的数据集类似。数据框将是你在R中最常处理的数据结构。
下表所示的病例数据集包含了数值型和字符型数据。由于数据有多种模式,无法将此数据集放入一个矩阵。在这种情况下,使用数据框是最佳选择。
数据框可通过函数 data.frame()创建: mydata <- data.frame(col1,col2,col3,…)。其中列向量 col1 、 col2 、 col3 等可为任何类型(如字符型、数值型或逻辑型)。每一列的名称可由函数 names 指定。
实例演练
输入5名糖尿病患者的各项数据:
patientID <- c(1, 2, 3, 4,5);#病人编号
name <- c('张三','李四','王二','赵大','孙五');#姓名
age <- c(30, 34,48,56,45);#患者年龄
diabetes <- c("1型糖尿病", "1型糖尿病",
"2型糖尿病", "2型糖尿病","1型糖尿病");#糖尿病类型
status <- c("较差", "好转",
"显著好转", "较差",'较差');#病情
patientdata <- data.frame(patientID,name,age,
diabetes, status,
stringsAsFactors=FALSE);
.运行,得下图:
若要对该图表中的数据进行筛选,则需要注意$号的使用,它被用来选取一个给定数据框中的某个特定变量。
实例演练
若要筛选出患有“1型糖尿病”的人数,需要两步走:
#step1:查找“1型糖尿病”的病人
type1 <- patientdata[patientdata$diabetes =="1型糖尿病",];
#step2:统计病人数
type1.number <- nrow(type1);
结果如图:
此外,还可以通过rbind以及cbind函数添加行和列。
1.5 列表
一般来说,列表就是一些对象(或成分,component)的有序集合。可以使用函数 list() 创建列表:mylist <- list(object1, object2, ...)。其中的对象可以是目前为止讲到的任何结构。
list列表的重要性。首先,列表允许以一种简单的方式组织和重新调用不相干的信息。其次,许多R函数的运行结果都是以列表的形式返回。
1.6 因子
因子(factor):类别(名义型)变量和有序类别(有序型)变量。
总结:
总的来说,初步了解了R的数据结构,掌握了一些基本操作。遇到问题,不做伸手党,这一点非常重要,独立思考,独立解决问题也是一项技能。加油吧,少年!
网友评论