美文网首页R语言相关
《生物信息学生R入门教程》读书笔记 Chapter 1

《生物信息学生R入门教程》读书笔记 Chapter 1

作者: 小潤澤 | 来源:发表于2020-02-24 11:28 被阅读0次

    前言

    最近在阅读欧剑虹老师《生物信息学生R入门教程》非常适合于刚入手NGS的初学者使用,这里我仅做我个人的读书笔记使用
    本书分为八个章节:
    1.R/Bioconductor简介

    2.基因芯片的数据分析

    3.RNA-seq数据分析

    4.Chip-seq数据分析

    5.ATAC-seq数据分析

    6.单细胞RNA-seq数据fenx

    7.下游分析

    8.上游分析

    Chapter1

    照例我们先介绍下R,基础的语法就不介绍了

    1.将字符串替换

    input = "ATTTCCACTAACCACT"
    #替换
    dna2rna<-function(inputStr){
       if(!is.character(inputStr))
             stop("need character input")
         is = toupper(inputStr)
         chartr("T", "U", is)
    }
    dna2rna(mychar)
    
    output = "AUUUCCACUAACCACU"
    

    2.正则表达

    主要是grep(),grepl(),sub()和gsub()函数,其中grep()返回的是位置系数,grepl()返回的是布尔值

    pattern="^[A-Za-z0-9\\._%+-]+@[A-Za-z0-9\\.-]+\\.[A-Za-z]{2,4}$"
    str<-c("abc","someone@bioconductor.org","efg","anotherone@gmail.com","thirdone@yahoo.cn")
    
    grepl(pattern,str)
    ##[1] FALSE  TRUE FALSE  TRUE  TRUE
    

    sub()和gsub()用于正则替换,sub()只替换第一个满足条件的,gsub()则替换所有满足条件的

    sub("\\w+@\\w+\\.[a-zA-Z]{2,4}","sub_function","abc@bioconductor.org,efd@bioconductor.org")
    ## [1] "sub_function,efd@bioconductor.org"
    
    gsub("\\w+@\\w+\\.[a-zA-Z]{2,4}","gsub_function","abc@bioconductor.org,efd@bioconductor.org") 
    ## [1] "gsub_function,gsub_function"
    

    (1)"." 除了换行以外的任意字符
    (2)"^" 一行字符串的起始,它并不代表第一个字符,只代表这里开始新的一行字符串。
    (3)"$" 一行字符串的结束,它并不代表最后一个字符(因为换行符并不会被包含进匹配当中),只代表一行字符串到这里结束。
    (4)"*" 零个或者多个之前的字符
    (5)"+" 一个或者多个之前的字符
    (6)"?" 零个或者一个之前的字符

    2.函数技巧

    判断数据类型

    fun <- function(param1, param2=c("SEL1", "SEL2", "SEL3"), ...){
      if(missing(param1)){
        stop("param1 is required.")
      }
      if(!inherits(param1, c("numeric", "integer", "double"))){
        stop("param1 must be an object of numeric")
      }
    

    这样写就严格规范了输入的数据类型,便于后续的操作

    相关文章

      网友评论

        本文标题:《生物信息学生R入门教程》读书笔记 Chapter 1

        本文链接:https://www.haomeiwen.com/subject/wvdmqhtx.html