美文网首页生信星球培训第五十二期
学习小组Day5笔记—我爱一朵向阳花

学习小组Day5笔记—我爱一朵向阳花

作者: 我爱一朵向阳花 | 来源:发表于2020-04-14 20:45 被阅读0次

    R-数据结构

    数据类型包括:


    R-数据类型

    其中,最需要掌握的是向量和数据框(即表格)

    向量

    1、向量写法(赋值给变量)

    #常用向量写法
    > x <- c(1,2,3)    #向量,1,2,3有序排列
    #其它向量写法
    > a <- 1:10         #将a赋值为1-10之间所有整数
    > b <- rep(1:3,times=4)   #将b赋值为1-3,重复4次
    > c <- seq(1,10,by=0.5)  #数列,1-10之间,间隔0.5取一次
    

    2、从向量中提取元素

    根据元素位置提取

    R中第几就是第几,不是从0开始数。

    > a
     [1]  1  2  3  4  5  6  7  8  9 10
    > a[4]     #提取向量a中第4个元素
    [1] 4
    > a[-4]   #提取向量a中除第4个元素以外的元素
    [1]  1  2  3  5  6  7  8  9 10
    > a[2:4]   #提取向量a中第2个到第4个元素
    [1] 2 3 4
    > a[-(2:4)]   #提取向量a中除第2个到第4个元素以外的元素
    [1]  1  5  6  7  8  9 10
    > a[c(1:5)]    #提取向量a中第1个到第5个元素,乱敲的
    [1] 1 2 3 4 5
    > a[c(2,7)]  #提取向量a中第2个和第7个元素
    [1] 2 7
    
    根据值提取

    “等于”为“==”

    > a
     [1]  1  2  3  4  5  6  7  8  9 10
    > a[a==10]  #提取向量a中等于10的元素
    [1] 10
    > a[a==0]   #提取向量a中等于0的元素,向量a中并没有
    integer(0)
    > a[a>5]    #提取向量a中大于5的元素
    [1]  6  7  8  9 10
    > a[a %in% c(1,0.5,3)]   #提取向量a中存在于向量c(1,0.5,3)中的元素,相当于向量a与向量c(1,0.5,3)的交集
    [1] 1 3
    

    数据框

    读取数据框

    > x <- read.csv('doudou.txt')  #文件名用引号,单引号双引号均可
    > z <- read.table(file='huahua.txt',sep='\t',header = T)
    #单引号双引号均可
    #sep:指定分隔符
    #header=T,将表格中第一行作为表头
    

    注意该文件必须在工作目录中,即与当前R Project在同一文件夹中。

    设置行名和列名

    > A <- read.csv("doudou.txt")
    #查看列名
    > colnames(A)   
    [1] "X1" "X2"
    #查看行名,行名默认为行号
    > rownames(A)
    [1] "1" "2" "3" "4" "5"
    

    修改列名

    > colnames(A)[1]<-"bioplanet"   #修改第一列列名
    

    引自生信星球:有的公司返回数据,左上角第一格为空,R会自动补为x,用这个命令来修改。

    修改前
    修改后

    修改行名

    > z <- read.table(file='huahua.txt',sep="\t",header = T,row.names = 1)
    #row.names:将第一列设置为行名
    
    修改前 修改后

    数据框导出

    > write.table(A,file = "1.txt",sep = ",")  #将分隔符改为逗号
    

    导出的文件如下,字符串带有双引号。

    导出文件
    quote=F去掉双引号
    > write.table(A,file = "1.txt",sep = ",",quote=F)
    
    字符串不加双引号

    变量的保存与重新加载(下次使用)

    保存格式:RData

    #保存当前所有变量
    > save.image(file="bioinfoplanet.RData")
    #保存其中一个变量
    > save(A,file="A.RData")
    #重新加载
    > load('bioinfoplanet.RData')
    

    保存的RData会出现在工作目录中。


    保存的RData

    提取数据框中的元素

    以变量A为例


    变量A
    - 变量名[x,y]   #提取变量中的第x行第y列
    > A[1,2]   #注意bioplant和X2是表头,第一行是A和1
    [1] 1
    > A[2,2]
    [1] NA
    - 变量名[x,]   #提取变量中的第x行
    > A[1,]
      bioplanet X2
    A         A  1
    > A[3,]
      bioplanet X2
    3         C NA
    - 变量名[,y]    #提取变量中的第y列
    > A[,2]
    [1]  1 NA NA  3 NA
    - 变量名[y]   #同上,第y列
    > A[2]
      X2
    A  1
    2 NA
    3 NA
    4  3
    5 NA
    - 变量名[a:b]  #提取变量中的第a列到第b列
    > A[1:2]
      bioplanet X2
    A         A  1
    2         B NA
    3         C NA
    4         D  3
    5         E NA
    - 变量名[c(a,b)]    #提取变量中的第a列和第b列
    > A[c(1,2)]
      bioplanet X2
    A         A  1
    2         B NA
    3         C NA
    4         D  3
    5         E NA
    - 变量名$列名  #提取某一列(不用括号,支持Tab键自动补全)
    > A$bioplanet
    [1] A B C D E
    Levels: A B C D E
    > A$X2
    [1]  1 NA NA  3 NA
    

    直接使用数据框中的变量

    新建数据框

    data.frame()

    #case、values为列名  
    #runif(n,min=0,max=1),runif()函数用于生成从0到1区间范围内的服从正态分布的随机数
    > a <-data.frame(case=paste("S",1:50),values=runif(50))
    
    新建的数据框
    #提取数据框中的列做散点图
    > plot(a$case,a$values)
    
    散点图
    关于x轴的疑惑:为什么没有按照表格中的值进行排序?
    来自花花的解答:默认按照ASCII码排序,不是按照数值
    按照花花的方法进行了调整:

    引用花花的教程:要把x轴对应的那一列变成因子,按照你想要的顺序排序

    > a <-data.frame(case=paste0("S",1:50),values=runif(50))
    > a$case <- factor(a$case,levels = paste0("S",1:50),ordered = TRUE)
    > plot(a$case,a$values)
    

    注意paste()和paste0()的区别在于:paste() S和数字之间有空格(sep=" "),paste0()没有空格,S与数字是紧挨着的。
    调整后的散点图:

    X轴按照值的大小排列
    更简单的方法

    1、将数据框的变量名添加到搜索环境中

    > attach(a)
    > plot(case,values)
    

    作图完成后,将a从搜索环境中除去detach(a)

    2、with
    with(data, expr, …)函数用于在一个从data构建出的环境中运行R表达式。参考链接1 参考链接2

    > with(a,{plot(case,values)
    + x<<-summary(values)})
    
    > x
       Min. 1st Qu.  Median    Mean 3rd Qu. 
    0.01185 0.26415 0.46720 0.47157 0.64463 
       Max. 
    0.95175 
    

    <<- :作为全局变量
    如果写x<-summary(values),则出了大括号就失效。

    脚本(即RStudio左上角框)的使用和保存

    脚本文件的后缀:R


    R脚本

    使用:在文件夹中找到,用RStudio打开。

    作业题回答:
    原因是没有建立这个变量/没有赋值(变量不存在),解决方法如下:


    给变量X赋值

    相关文章

      网友评论

        本文标题:学习小组Day5笔记—我爱一朵向阳花

        本文链接:https://www.haomeiwen.com/subject/xlytvhtx.html