美文网首页
R语言-seqinr包-Genbank(以及许多其他序列数据库)

R语言-seqinr包-Genbank(以及许多其他序列数据库)

作者: 潜叶虫 | 来源:发表于2024-03-22 13:17 被阅读0次

    seqinr包简介

    seqinr包为R语言提供了访问序列数据库的方式。

    通过lseqinr()可以列举出包中的所有函数。

    # 安装该包
    install(seqinr)
    

    导入数据

    read.fasta函数:除fasta格式文件外,gzip压缩的fasta文件也能直接读取
    read.alignment函数:用于读取其他软件生成(mase、clustal、phylip、fasta 或 msf)的比对序列数据,以进行多序列比对。format = "fasta"

    read.fasta(file = system.file("sequences/ct.fasta.gz", package = "seqinr"),
      seqtype = c("DNA", "AA"), as.string = FALSE, forceDNAtolower = TRUE,
      set.attributes = TRUE, legacy.mode = TRUE, seqonly = FALSE, strip.desc = FALSE,
      whole.header = FALSE,
      bfa = FALSE, sizeof.longlong = .Machine$sizeof.longlong,
      endian = .Platform$endian, apply.mask = TRUE)
      
    read.alignment(file, format, forceToLower = TRUE, oldclustal = FALSE, ...)
    

    参数

    • seqtype 导入序列的类型
    • as.string 将每条序列以单个字符串形式导入
    • forceDNAtolower 序列字符大小写
    • set.attributes 是否在list中加入属性

    数据库-检索下载

    choosebank()查看支持的数据库,通过infobank参数可以查看数据库信息。
    closebank()关闭服务器。
    :国内用起来不好使。
    query()检索数据。
    getSequnce()获取序列。
    getTrans()将核酸序列转为蛋白序列。

    choosebank(bank = NA, host = "pbil.univ-lyon1.fr", port = 5558, server = FALSE,
                        blocking = TRUE, open = "a+", encoding = "", verbose = FALSE,
                        timeout = 5, infobank = FALSE, tagbank = NA)
                        
    query(listname, query, socket = autosocket(),invisible = TRUE, verbose = FALSE, virtual = FALSE)
    

    相关文章

      网友评论

          本文标题:R语言-seqinr包-Genbank(以及许多其他序列数据库)

          本文链接:https://www.haomeiwen.com/subject/ezmftjtx.html