R语言入门

作者: 胡阿白 | 来源:发表于2017-02-02 20:16 被阅读0次

Step1:下载和安装R

Windows和OS X用户可以从CRAN(Comprehensive R Archive Network)上下载R。

在浏览器中打开http://www.r-project.org/

点击“CRAN”。然后会看到按国家排序的镜像站点列表(我选的是University of Science and Technology of China 中国科学技术大学);

点击“Download  R for Windows”。

点击“base”;

点击下载最新版R的链接(我下载的是R-3.3.2-win.exe文件);

下载完成后,双击.exe文件,按照提示安装。

完成后如下图所示:

Step2:下载和安装RStudio

在浏览器中打开https://www.rstudio.com/;

点击“Download”。然后会看到如下选项,有两个免费版本。(我选择了第一个Desktop桌面版的)

点击“Download”后跳入如下界面

选择Installers下载项的第一行,进行Windows版本的RStudio的下载;

下载完成后,双击.exe文件,按照提示安装。

完成后如下图所示:

!!!没想到打开的窗口一片空白,单击无法正常打开,经登录相关论坛,发现可能是安装路径存在问题。于是我将R及RStudio重新安装于同一目录下,然而窗口仍不可正常显示。经过我进一步的查找相关解决方法,按住“Ctrl”启动Rstudio后,终于关联了正确的英文路径,得以正常显示:

如图左边“Console”是控制台,用于输入R语言的命令及显示输出结果。右上角为工作空间,主要用于记录目前变量的数值,便于查看目前相关变量的状况;右下角为目录,主要显示当前目录下的相关文件以及文件夹等。

Step 3:Rstudio 的初体验

1.新建项目

在“New Project”下,选择“New Directory”

选择“Empty Project”,并新建立project的名称。本次命名为“DA”,如下图所示:

2.创建脚本

点击菜单File项下的New File中的R Script,即为创建新脚本。

由上图可见,新建立的脚本默认名称是Untitled1,为了日后查找方便,需要对其进行重命名。然而,live第二讲中并未涉及命名讲解,因此需要自己进行操作或者搜寻互联网解决。我注意到live课件中“保存”的按钮是灰色的,而我新建的脚本中的却还是蓝色的活动状态,于是点击进行“保存”后,命名“DS”,果然重命名成功:

3.运行脚本:

在脚本空白处输入代码,选中需要运行的代码部分,点击Run运行,就能在控制台以及工作空间上看到代码运行的情况及结果(这里借用了猴子老师第二讲live里部分代码):

随后,又尝试自己输入几行简单的求和代码,运行后如图;

赋值a=5,b=6,C=a+b,最后得出正确的答案C=11。试验成功!

Step 4:数据结构入门

1.数据结构

R拥有许多用于存储数据的对象类型,包括标量、向量、矩阵、数组、数据框和列表。

注意:在R中,术语 对象(object)是指可以赋值给变量的任何事物,包括常量、数据结构、函数,甚至图形。对象都拥有某种模式,描述了此对象是如何存储的,以及某个类。

1.1向量

向量是用于存储数值型、字符型或逻辑型数据的一维数组。执行组合功能的函数 c() 可用来创建向量。各类向量如下例所示:

a <- c(1, 2, 5, 3, 6, -2, 4)                      #数值型向量

b <- c("one", "two", "three")                  #字符型向量

c <- c(TRUE, TRUE, TRUE, FALSE, TRUE, FALSE) #逻辑型向量

注意,单个向量中的数据必须拥有相同的类型或模式(数值型、字符型或逻辑型)。同一向量中无法混杂不同模式的数据。

如何访问向量中的元素?通过在方括号中给定元素所处位置的数值。如下所示:

> a <- c("k", "j", "h", "a", "c", "m")

> a[3]#访问向量中第三个元素

[1] "h"

> a[c(1, 3, 5)] #访问向量中第一、三、五个元素

[1] "k" "h" "c"

> a[2:6]    #访问向量中第二至第六个元素

[1] "j" "h" "a" "c" "m"

实例演练

在脚本中输入代码:

name<-c("猴子","李四","张三","王二")#命名向量名为猴子、李四、张三、王二

name[1]#访问向量中第一个元素名

length(name)#获取向量中元素个数

name[1:4]#访问向量中第一至第四的元素名

name[c(1,2,3,4)]#分别访问向量中第一、二、三、四的元素名

依次点击、同时选定点击运行后,结果如下图所示。

1.2 矩阵

矩阵是一个二维数组,只是每个元素都拥有相同的模式(数值型、字符型或逻辑型)。可通过函数matrix()创建矩阵。

a <- matrix(vector, nrow=number_of_rows, ncol=number_of_columns,byrow=logical_value, dimnames=list(char_vector_rownames, char_vector_colnames))

其中 vector 包含了矩阵的元素,nrow和ncol 用以指定行和列的维数,dimnames 包含了可选的、以字符型向量表示的行名和列名。选项 byrow 则表明矩阵应当按行填充(byrow=TRUE )还是按列填充(byrow=FALSE ),默认情况下按列填充。

实例演练

创建一个3*3的矩阵,

“data <-c(2,4,6,1,3,5,7,8,9);#数值为2,4,6,1,3,5,7,8,9

rnames <-c("A","B","C");#行名为"A","B","C"

cnames <-c("L1","L2","L3");#列名为"L1","L2","L3"

a<- matrix(data = data,#矩阵显示数值,

nrow=3,ncol=3,#行数为3,列数为3

byrow=TRUE,#按行填充

dimnames = list(rnames,cnames));#包含行名、列名”

得出矩阵图为

假如,改成byrow=FALSE,则:

显然,数据的排列方式发生了改变。

然后,尝试在矩阵中选择向量元素,输入代码:

a[1,1]#查看第一列第一行的元素

a[,3]#查看第三列的所有元素

a[2,c(2,3)]#查看第二行的第二、三列的所有元素

a[c(1,2),c(2,3)]#查看第一、二行、第二、三列的所有元素

a[c(1,3),c(1,2,3)]#查看第一、三行、第一、二、三列的所有元素。

结果如图:

进一步的,创建一个5*1的矩阵,绘制柱状图,如图所示:

1.3 数组

数组(array)与矩阵类似,但是维度可以大于2。数组可通过 array 函数创建。

myarray <- array(vector,dimensions,dimnames)。其中 vector 包含了数组中的数据, dimensions 是一个数值型向量,给出了各个维度下标的最大值,而 dimnames 是可选的、各维度名称标签的列表。

实例演练

创建一个三维数组,元素为1~24,

dim1 <- c("A1", "A2")

dim2 <- c("B1", "B2", "B3")

dim3 <- c("C1", "C2", "C3", "C4")

a <- array(1:24,c(2, 3, 4),dimnames = list(dim1, dim2, dim3))

欲查看该数组所有元素,采用方法如下

首先输入代码a[,,,], 显示错误,分别输入最后维度的序数,则正常显示

a[,,1]

a[,,2]

a[,,3]

a[,,4]

采用一句代码,输入a[,,c(1:4)]

则同样显示该数组所有元素

结论:数组的维度需要符合数值型向量给出的各维度下标最大值。像矩阵一样,数组中的数据也只能拥有一种模式。从数组中选取元素的方式与矩阵相同。

1.4 数据框

由于不同的列可以包含不同模式(数值型、字符型等)的数据,数据框的概念较矩阵来说更为一般。它与你通常在SAS、SPSS和Stata中看到的数据集类似。数据框将是你在R中最常处理的数据结构。

下表所示的病例数据集包含了数值型和字符型数据。由于数据有多种模式,无法将此数据集放入一个矩阵。在这种情况下,使用数据框是最佳选择。

数据框可通过函数 data.frame()创建: mydata <- data.frame(col1,col2,col3,…)。其中列向量 col1 、 col2 、 col3 等可为任何类型(如字符型、数值型或逻辑型)。每一列的名称可由函数 names 指定。

实例演练

输入5名糖尿病患者的各项数据:

patientID <- c(1, 2, 3, 4,5);#病人编号

name <- c('张三','李四','王二','赵大','孙五');#姓名

age <- c(30, 34,48,56,45);#患者年龄

diabetes <- c("1型糖尿病", "1型糖尿病",

"2型糖尿病", "2型糖尿病","1型糖尿病");#糖尿病类型

status <- c("较差", "好转",

"显著好转", "较差",'较差');#病情

patientdata <- data.frame(patientID,name,age,

diabetes, status,

stringsAsFactors=FALSE);

.运行,得下图:

若要对该图表中的数据进行筛选,则需要注意$号的使用,它被用来选取一个给定数据框中的某个特定变量。

实例演练

若要筛选出患有“1型糖尿病”的人数,需要两步走:

#step1:查找“1型糖尿病”的病人

type1 <- patientdata[patientdata$diabetes =="1型糖尿病",];

#step2:统计病人数

type1.number <- nrow(type1);

结果如图:

此外,还可以通过rbind以及cbind函数添加行和列。

1.5 列表

一般来说,列表就是一些对象(或成分,component)的有序集合。可以使用函数 list() 创建列表:mylist <- list(object1, object2, ...)。其中的对象可以是目前为止讲到的任何结构。

list列表的重要性。首先,列表允许以一种简单的方式组织和重新调用不相干的信息。其次,许多R函数的运行结果都是以列表的形式返回。

1.6 因子

因子(factor):类别(名义型)变量和有序类别(有序型)变量。

总结:

总的来说,初步了解了R的数据结构,掌握了一些基本操作。遇到问题,不做伸手党,这一点非常重要,独立思考,独立解决问题也是一项技能。加油吧,少年!

相关文章

网友评论

    本文标题:R语言入门

    本文链接:https://www.haomeiwen.com/subject/goerittx.html