美文网首页
2020-03-25:R的安装和数据结构

2020-03-25:R的安装和数据结构

作者: 烂笔头2020 | 来源:发表于2020-03-25 09:37 被阅读0次

    R语言的编程环境

    参考原文地址:
    https://www.jianshu.com/p/2a1a2ca1a916
    安装步骤如下:https://blog.csdn.net/m0_37345402/article/details/82839863

    R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。简单来说,R是一门统计计算语言,是一套开源的数据分析解决方案。

    RStudio是一款R语言的IDE,R自带的环境操作起来可能不是方便,而Rstudio很好地解决了这个问题,而且它还具有调试、可视化等功能,支持纯R脚本、Rmarkdown (脚本文档混排)、Bookdown (脚本文档混排成书)、Shiny (交互式网络应用)等。

    安装顺序:①R ②RStudio
    一开始把两个都安装在D盘,R安装完成,RStudio也安装完成,不过打开RStudio时会报致命错误,不知道为什么,就算重新卸载再安装还是会打开RStudio报错,然后最后尝试卸载把两个重新安装在C盘,就可以了。

    打开页面:


    image.png

    ps:R是解释型语言,因此可以一次性执行写在脚本文件中的一组命令,这称为批处理/脚本文件方式使用。
    脚本文件以R为扩展名,如test.R。在命令台上键入source(“z.R”)来运行该脚本。

    对于解释器与编程环境的区别:
    看到这个解释觉得挺形象, 就把它放到这里,方便以后想再看的时候方便找到
    https://www.cnblogs.com/sword03/archive/2010/06/27/1766147.html

    R语言的一些基础笔记

    1、变量赋值:=或者 <-
    2、c为combine的意思,Combine Values into a Vector or List

    基础数据结构

    1、向量

    #创建向量
    a<-c(1,2,3,4,5,6)
    b<-c("one","two","three")
    c<-c(TRUE,FALSE,TRUE,TRUE,FALSE)
    #向量索引
    a[2] #第二个元素
    a[-2] #删除第二个元素
    a[c(2:4)] #取出第二到第四个元素
    
    #输出结果
    [1] 2
    [1] 1 3 4 5 6
    [1] 2 3 4
    

    2、矩阵

    #创建矩阵
    mymat <- matrix(c(1:10), nrow=2, ncol=5, byrow=TRUE) 
    #R语言是默认byrow=False,即数据按列输入,byrow=True则按行输入
    #矩阵索引
    mymat #输出矩阵
    mymat[2,] #取第二行
    mymat[,2] #取第二列
    mymat[1,5] #第一行第五列的元素
    
    #输出结果
        [,1] [,2] [,3] [,4] [,5]
    [1,]    1    2    3    4    5
    [2,]    6    7    8    9   10
    
    [1] 6 7 8 9 10
    [1] 2 7
    [1] 5
    
    #对比一下byrow=False的结果
    >mymat01 <-matrix(c(1:10),nrow=2,ncol=5)
    >mymat01 
    
        [,1] [,2] [,3] [,4] [,5]
    [1,]    1    3    5    7    9
    [2,]    2    4    6    8   10
    
    

    3、数组

    #创建数组
    myarr <- array(c(1:12),dim=c(2,3,2))  #2X3X2
    dim(myarr) #取矩阵或数组的维度
    myarr[1,2,1] #取第一个矩阵的第一行第二列
    
    
    #输出结果
    , , 1
         [,1] [,2] [,3]
    [1,]    1    3    5
    [2,]    2    4    6
    
    , , 2
         [,1] [,2] [,3]
    [1,]    7    9   11
    [2,]    8   10   12
    
    [1] 2 3 2
    [1] 3
    
    

    对于维数向量:
    数组有一个特征属性叫做维数向量(dim属性),dim参数可省,省略时作为一维数组(但不同于向量),向量只有定义了维数向量(dim属性)后才能被看作是数组。

    4、数据框
    数据框类似矩阵(属性:行数和列数)

    #创建数据框
    kids <- c("Wang", "Li")
    age <- c("18", "16")
    df <- data.frame(kids, age)
    #数据框索引
    df[1,] #第一行
    df[,2] #第二列
    df[1:2,1:2]#前两行,前两列
    df$kids #根据列名称
    #数据框常用函数
    str(df) #数据框的结构
    rownames(df) #行名称
    colnames(df) #列名称
    

    5、因子变量
    变量:类别变量,数值变量
    类别数据对于分组数据研究非常有用。

    因子用来存储类别变量(categorical variables)和有序变量,这类变量不能用来计算而只能用来分类或
    者计数。因子表示分类变量,有序因子表示有序变量。
    生成因子数据对象的函数是factor(),语法是factor(data, levels, labels, ...),其中data是数据,levels是因子水平向量,labels是因子的标签向量。

    #向量因子化
    status<-c("Poor", "Improved", "Improved","Excellent", "Poor")
    status<-rep(status,15) #rep(),复制函数,复制status数据15次
    status<-factor(status,ordered=TRUE, levels= c("Poor","Improved", "Excellent"),labels=c("P","I","E"))
    #创建有序因子,因子水平向量:Poor<Improved<Excellent
    index <- sample(1:100,75)  #sample()随机抽样函数
    plotdata <- data.frame(index,status)
    attach(plotdata)
    boxplot(index~status,col="red")  #boxplot函数绘制箱线图
    
    箱线图

    小知识点:
    sample函数可以完成随机抽样处理,其基本形式为:
    sample(x, size, replace = FALSE)
    具体参数说明:
    x 整体数据,以向量形式给出
    size 抽取样本的数目
    replace 如果为F(默认),则是不重复抽样,此时size不能大于x的长度;如果为T,则是重复抽样,此时size允许大于x的长度

    6、列表
    列表以一种简单的方式组织和调用不相干的信息,R函数的许多运行结果都是以列表的形式返回。

    #创建列表
    lis <- list(name='fred',wife='mary',no.children=3,child.ages=c(4,7,9))
    #列表索引
    lis$name #列表组件名
    lis[[1]] #列表位置访问
    
    输出结果

    下面是我整理的R的控制流的笔记记录:
    https://www.jianshu.com/p/960e99e90154

    相关文章

      网友评论

          本文标题:2020-03-25:R的安装和数据结构

          本文链接:https://www.haomeiwen.com/subject/qnxtuhtx.html