R语言-数据结构入门-2

作者: 巍书生 | 来源:发表于2017-01-22 21:23 被阅读124次
R语言的学习

开始


    开始R语言的学习已经有一段时间了,正在按计划开始学习,虽然年底有点忙还是坚持按计划进行学习,这是学习的第一个节点时间,也该总结一下学习的成果,同时也勉励一下自己坚持,就像笑来老师说“短期期望不要太高,长期期望不要太低”。

第一章 R语言介绍


1.1为何要使用R

优势:

免费,开源的社群模式,支持各种图标创作,是一个可进行交互式数据分析和探索的强大平台,从多个数据获取数据转化为可用,各种图形界面支持GUI,支持各种系统

难点:

由于许多功能都是由独立贡献者编写的可选模块提供的,这些文档可能比较零散而且很难找到。事实上,要掌握R的所有功能,可以说是一项挑战。

1.2 R的获取和安装

R可以在CRAN(Comprehensive R Archive Network)http://cran.r-project.org上免费下载

疑问:CRAN下载和安装???已经见解决(见R语言分享第一篇文章)

1.3 R的使用

注意:rnorm(5)-> x与x<-rnorm(5)的语句等价,注释由符号#开头。在#之后出现的任何文本都会被R解释器忽略

1.3.2获取帮助


实例:

1.4包

R提供了大量开箱即用的功能,但它最激动人心的一部分功能通过可选模块的下载和安装来实现的。

使用命令 install.packages()安装包  update.packages()更新安装包  installed.packages()例出安装包。

1.5批处理

outfile是接收输出文件的文件名,options部分则列出了控制执行细节的选项。依照惯例,infile的扩展名是.R,outfile的扩展名为.Rout。

图来源于R语言实战

第二章 创建数据集

2.1数据集的概念

R可以处理的数据类型(模式)包括数值型、字符型、逻辑型(TRUE / FALSE)、复数型(虚

数)和原生型(字节)。在R中,PatientID、AdmDate和Age为数值型变量,而Diabetes和Status则为字符型变量。另外,你需要分别告诉R:PatientID是实例标识符,AdmDate含有日期数据,Diabetes和Status分别是名义型和有序型变量。R将实例标识符称为rownames(行名),将类

别型(包括名义型和有序型)变量称为因子(factors)。

图来源于R语言实战

2.2数据结构

注意:

1,单个向量中的数据必须,拥有相同的类型或模式(数值型、字符型或逻辑型)。同一向量中无法混杂不同模式的数据。

2,标量是只含一个元素的向量,例如f <- 3、g <- "US"和h <- TRUE,它们用于保存常量。

3,通过在方括号中给定元素所处位置的数值。

4,最后一个语句中使用的冒号用于生成一个数值序列

实例向量:

2.2.2矩阵

矩阵是一个二维数组,只是每个元素都拥有相同的模式(数值型、字符型或逻辑型)。可通

过函数matrix()创建矩阵。

实例

#矩阵

y<-matrix(1:20,nrow = 4,ncol = 5) #创建矩阵行4例5

cells <-c(1,2,3,4)

rnames <-c("r1","r2")

cnames <-c("c1","c2")

newmatrix <-matrix(cells,nrow = 2,ncol = 2,byrow = T,dimnames =list(rnames,cnames))#按行填充

newmatrix

twomatrix <-matrix(cells,nrow = 2,ncol = 2,byrow = F,

dimnames =list(rnames,cnames))#按例填充

Twomatrix

注意:

其中vector包含了矩阵的元素,nrow和ncol用以指定行和列的维数,dimnames包含了可选

的、以字符型向量表示的行名和列名。选项byrow则表明矩阵应当按行填充(byrow=TRUE)

还是按列填充(byrow=FALSE)

实例:

YY <- matrix(1:10,nrow = 2)

> YY

[,1] [,2] [,3] [,4] [,5]

[1,]13579

[2,]246810

> YY[2,]#取行

[1]2468 10

> YY[,2]#取例

[1] 3 4

> YY[2,4]#取只定行列

[1] 8

>

YY[2,c(3,5)]#确制定行的多例

[1]6 10

>

2.2.3数组

数组(array)与矩阵类似,但是维度可以大于2。数组可通过array函数创建,形式如下:

myarray <-array(vector, dimensions, dimnames)

其中vector包含了数组中的数据,dimensions是一个数值型向量,给出了各个维度下标的最大值,而dimnames是可选的、各维度名称标签的列表。

注意创建顺序为:行例表顺创建

示例

> sheet1 <- c("A1","A2")# 创建向量

> sheet2 <- c("B1","B2","B3") #创建向量

> sheet3 <-c("c1","c2","c3","c4")# 创建向量

>

> E <- array(1:24,c(2,3,4),dimnames = list(sheet1,sheet2,sheet3))#创建2x3x4 行例表顺创建

> E

, , c1

B1 B2 B3

A1135

A2246

, , c2

B1 B2 B3

A179 11

A28 10 12

, , c3

B1 B2 B3

A1 13 15 17

A2 14 16 18

, , c4

B1 B2 B3

A1 19 21 23

A2 20 22 24

> E [1,1,1]# 行列表

[1] 1

2.2.4数据框

由于不同的列可以包含不同模式(数值型、字符型等)的数据,数据框可通过函数data.frame()创建:mydata <- data.frame(col1, col2,col3,...)

实例

#创建数据框

> #创建数据框

> MYID <- c(1,2,3,4)

> age <- c(21,23,23,25)

> diabetes <-c("T1","T2","T1","T2")

> sad <- c("poor","improved","excellent","poor")

> patientdata <- data.frame(MYID,age,diabetes,sad)

> patientdata

MYID age diabetessad

1121T1poor

2223T2improved

3323T1 excellent

4425T2poor

注意:每一列数据的模式必须唯一,不过你却可以将多个模式的不同列放到一起组成数据框。Attach注意当名称相同的对象不止一个时,这种方法的局限性就很明显了

> summary(mtcars$mpg)

Min. 1st Qu.MedianMean 3rd Qu.Max.

10.4015.4219.2020.0922.8033.90

> attach(mtcars)

> summary(mpg)

Min. 1st Qu.MedianMean 3rd Qu.Max.

10.4015.4219.2020.0922.8033.90

> plot(mpg,disp)

> plot(mpg,wt)

> detach(mtcars)

> mpg <-c(25,36,47)

> attach(mtcars)

with用法示例

with(mtcars,{print(summary(mpg))#输出到屏幕 统计概要

+plot(mpg,disp)#对其绘tu

+plot(mpg,wt)})#对其绘tu

Min. 1st Qu.MedianMean 3rd Qu.Max.

10.4015.4219.2020.0922.8033.90

注意:

Attach语句的注意:在数据框mtcars被绑定(attach)之前,你们的环境中已经有了一个名为mpg的对象。在这种情况下,原始对象将取得优先权,这与你们想要的结果有所出入。由于mpg中有3个元素而disp中有32个元素,故plot语句出错。函数attach()和detach()最好在你分析一个单独的据框,并且不太可能有多个同名对象时使用。任何情况下,都要当心那些告知某个对象已被屏蔽(masked)的警告。

wish

函数with()的局限性在于,赋值仅在此函数的括号内生效,你需要创建在with()结构以外存在的对象,使用特殊赋值符<<-替代标准赋值符(<-)即可,它可将对象保存到with()之外的全局环境中

> with(mtcars,{N<- summary(mpg)

+ keepstats <<- summary(mpg)})#赋值仅在此函数的括号内生效

> N

Error: object'N' not found

>keepstats

Min. 1st Qu.MedianMean 3rd Qu.Max.

10.4015.4219.2020.0922.8033.90

注意:将patientID指定为R中标记各类打印输出和图形中实例名称所用的变量。

2.2.5因子

类别(名义型)变量和有序类别(有序型)变量在R中称为因子(factor)。

示例

> #因子

> D <- factor(diabetes)#类别变量

> D

[1] T1 T2 T1 T2

Levels: T1 T2

>

> status <-c("poor","improved","excellent","poor")#顺序变量

>

> status <- factor(status,ordered = T,levels =c("poor","improved","excellent"))

>

> status

[1] poorimprovedexcellent poor

Levels: poor < improved < excellent

数值型变量可以用levels和labels参数来编码成因子。如果男性被编码成1,女性被编码成2,则以下语句:

示例

> sex <- c(1,2)

> sex

[1] 1 2

> sex <- factor(sex, levels=c(1, 2),labels=c("Male", "Female"))#数值型变量

> sex

[1] MaleFemale

Levels: Male Female

2.2.6列表

列表(list)是R的数据类型中最为复杂的一种。一般来说,列表就是一些对象(或成分,component)的有序集合。

对R语言的学习总结分享,发现在自己自学方面的问题和经验

1,学习笔记缺乏一定逻辑性,日后回看的时候没发看出清晰逻辑思路,笔记应该本节重要内容,实例、需要注意地方,有疑问地方这方向进行记录,第一章和第二章自学笔记太混乱。

2,R语言学习确实枯燥,所以一定抓住高效注意力的时候进行学习,比如早上注意力明显高于晚上,这种需要大量注意力的学习应该反正在自己注意力高效时段。

3,学以致用,要结合实际工作需求加以练习才是掌握语法高效手段。

4,学习进度还低于自己预期,过于关注点上的东西,不懂的可以先放一放,选过记录之后往后看,后面可能会豁然开朗。

5,身心疲惫时候可以听听别人讲座,这种有意想不到的收益。

相关文章

  • R语言-数据结构入门-2

    开始 开始R语言的学习已经有一段时间了,正在按计划开始学习,虽然年底有点忙还是坚持按计划进行学习,这是学习的第一...

  • R语言入门2:数据结构-2

    3.矩阵(matrix) 我们可以把矩阵简单看做向量+维度属性,这个向量一般是整数向量,而维度一般包括两个属性:n...

  • 学习小组Day4笔记--扬马延

    R语言学习 1. R以及R studio安装 直接搜索R语言网页可直接安装 2. R语言入门 参考书目《R for...

  • R 语言入门:tidyverse 生态链

    说明:文章内容截选自实验楼教程【R 语言基础入门】~ 前言:本课程主要讲解包括 R 语言的基本数据结构 , tid...

  • R语言入门:基础数据结构

    说明:文章内容截选自实验楼教程【R 语言基础入门】~ 前言:本课程主要讲解包括 R 语言的基本数据结构 , tid...

  • 《学习小组Day5笔记--寒鹤》

    R语言之数据结构 今天的学习内容是R语言的数据结构。R语言的数据结构主要有向量(vector),矩阵(matrix...

  • 学习小组Day4笔记--行

    正式开始学习R语言了,今天笔记内容为R语言基础和ggplot2的入门学习 R语言基础 1、认识R与RStudio ...

  • R语言入门2:数据结构-3

    6. 因子(farcor) 在R语言中,因子是用来处理分类数据的,分类数据又可以分为有序和无序。我们可以把因子简单...

  • R语言入门2:数据结构-1

    1.对象和属性 在R中有5种基本的对象类型(classes of subjects): 字符:character,...

  • R语言-0基础学习4-实战1-常见操作

    R语言学习系列R语言-0基础学习1-数据结构R语言-0基础学习2-构建子集R语言-0基础学习3-循环排序信息处理函...

网友评论

    本文标题:R语言-数据结构入门-2

    本文链接:https://www.haomeiwen.com/subject/ijdobttx.html